Etude comparative des procedures d estimation du local False Discovery Rate
|
|
- Patrice Lamarche
- il y a 8 ans
- Total affichages :
Transcription
1 Etude comparative des procedures d estimation du local False Discovery ate Cyril Dalmasso & Philippe Broët INSEM U472 - Faculté de médecine Paris Sud 16, avenue Paul Vaillant-Couturier Villejuif ésumé Les nouvelles technologies de la génomique fonctionnelle produisent des quantités de données de plus en plus importantes conduisant l investigateur à e ectuer simultanément des milliers de tests statistiques. Dans ce contexte, le local False Discovery ate (localfd), qui est étroitement lié au False Discovery ate (FD) introduit par Benjamini et Hochberg (1995), est un critère particulièrement adapté pour prendre en compte ce problème de multiplicité des tests. Dans le cadre des procédures d estimation du localfd pour lesquelles aucune hypothèse n est faite sur la distribution de la statistique de test sous l hypothèse alternative, nous considérons les méthodes proposées par Efron (2004), Aubert et coll. (2004), et Scheid et coll. (2004). Après une présentation de ces trois méthodes, nous proposons une nouvelle procédure d estimation du localfd. Une étude de simulations est conduite a n de comparer les quatre procédures, et ces di érentes méthodes sont ensuite appliquées à des données d oncologie. Mots-clés Tests multiples, False Discovery ate, local False Discovery ate. Abstract New technologies in functional genomics produce huge datasets leading to thousands of statistical tests being performed. In this context, the local False Discovery ate (localfd), which is closely related to the Benjamini and Hochberg s False Discovery ate (FD), is an interesting criterion in order to address the multiple testing problem. In the framework of estimating procedures of the localfd without any assumption on the distribution of the test statistic under the alternative hypothesis, we consider the methods proposed by Efron (2004), Aubert et al. (2004), and Scheid et al. (2004). After a presentation of these three methods, we propose a novel procedure for estimating the localfd. A simulation study is conducted in order to compare the four procedures, and the di erent methods are then applied to clinical data. Keywords Multiple tests, False Discovery ate, local False Discovery ate. 1
2 1 Introduction Pour toute analyse de données impliquant simultanément un nombre important de tests statistiques, l un des problèmes majeurs est la prise en compte de la multiplicité de ces tests. L ampleur du nombre de comparaisons e ectuées dans le cas d études de génomique fonctionnelle à grande échelle qui ont pour objectif d identi er les gènes ou séquences dont les modi cations sont liées à un facteur biologique ou clinique particulier a entraîné un renouveau d intérêt pour le problème des comparaisons multiples. Alors que les stratégies habituellement utilisées pour tester une seule hypothèse visent à contrôler le risque de première espèce, les procédures de comparaisons multiples visent à contrôler (ou estimer) un autre critère d erreur tenant compte de l ensemble des comparaisons e ectuées. Dans le cadre de l analyse des données de génomique fonctionnelle, le critère le plus utilisé est aujourd hui le False Discovery ate (FD) introduit en 1995 par Benjamini et Hochberg [1]. Notant V le nombre total de faux positifs et le nombre total de positifs (gènes/séquences déclarés intéressants), le FD est dé ni comme l espérance du taux de faux positifs : F D = E V 1 f>0g : Ce critère, moins restrictif que le classique Family Wise Error ate (FWE), qui est la probabilité d avoir au moins un faux positif, est bien adapté au cadre exploratoire considéré dans l analyse des données de génomique fonctionnelle. A partir du FD, plusieurs extensions ont été proposées, dont les principales sont le positive False Discovery ate (pfd) et le local False Discovery rate (localfd). Le positive False Discovery ate (pfd) est dé ni comme l espérance du taux de faux positives conditionnelle à l existence d au moins une découverte (pf D = E V j > 0 ). Si les statistiques de test sont indépendantes et identiquement distribuées sous l hypothèse nulle, Storey [2] a démontré que, pour une région de rejet xée, le pf D peut s écrire comme une probabilité conditionnelle : pf D( ) = Pr(H = 0jT 2 ) où T est la statistique de test et H est la variable indicatrice telle que H = 0 si l hypothèse nulle H 0 est vraie, H = 1 si l hypothèse alternative H 1 est vraie. Le localfd, introduit par Efron en 2001 [3], est dé ni comme la probabilité pour un gène de véri er l hypothèse nulle conditionnellement à une valeur particulière de la statistique de test : localf D(t) = P r(h = 0jT = t): En notant f la densité marginale de la statistique de test, f 0 et f 1 les densités conditionnelles sous H 0 et H 1, et 0 = Pr(H = 0), la densité marginale de T s écrit : f(t) = 0 f 0 (t) + (1 0 )f 1 (t): (1) A partir de cette relation, le localfd s écrit : localf D = 0 f 0 (t)=f(t): Alors que le pfd fournit une information globale pour toute une région de rejet, sans distinguer les gènes proches de la frontière des autres gènes, le localfd est une quantité qui fournit une information spéci que à chaque gène/séquence. Ces critères sont 2
3 cependant étroitement liés. En e et, pour une région de rejet comme l espérance conditionnelle du localfd pour t 2 :, le pf D peut s écrire pf D( ) = 0 Pr(T 2 jh = 0) Pr(T 2 ) = 0 f0 (z)dz f(z)dz = localf D(z)f(z)dz f(z)dz Ainsi, le localfd peut permettre à l investigateur de comparer les taux de faux positifs de plusieurs sous-ensembles de gènes/séquences dé nis, par exemple, à partir des fonctions biologiques ou bien des localisations chromosomiques. En pratique, un estimateur du FD pour un sous-ensemble sera obtenu par la moyenne des localf D de tous les gènes/séquences du sous-ensemble. A partir de la modélisation explicite des distributions de la statistique de test sous H 0 et sous H 1 et selon une approche fréquentiste (EM algorithme) ou Bayésienne, une estimation directe du localfd peut être obtenue. Plusieurs procédures proposent cependant une estimation du localfd sans aucune hypothèse sur la distribution de la statistique de test sous H 1. Ces dernières procédures constituent le cadre de notre exposé. A notre connaissance, il en existe actuellement trois : la procédure d Efron [4], celle de Aubert et coll. [5] et celle de Scheid et coll. [6]. Après avoir présenté ces trois procédures, nous proposerons une nouvelle procédure d estimation du localfd. Puis, nous présenterons les résultats d une étude de simulation comparant les di érentes procédures. En n, nous illustrerons les di érentes méthodes sur des données réelles issues d une étude en oncologie. 2 Estimation du localfd sans hypothèse sur H 1 Les di érentes procédures d estimation du localfd présentées sont basées sur une estimation séparée des trois quantités 0, f 0 (t) et f(t): Procédure d Efron (2004) Le cadre pratique dans lequel Efron situe l ensemble de sa procédure est celui dans lequel une faible proportion de gènes est modi é ( 10%). L estimateur retenu pour 0 est la constante 1. La densité marginale f(t) est quant à elle estimée par une régression de Poisson. En pratique, l ensemble des valeurs observées de la statistique est partitionné en K intervalles de même longueur, dont les valeurs centrales sont notées x k. L espérance k du nombre d observations contenues dans chaque intervalle, qui est proportionnelle à la densité f k = f(x k ); est ensuite estimé par une régression de Poisson: Supposons que la distribution théorique de la statistique de test sous l hypothèse nulle est une loi normale centrée réduite (lorsque ce n est pas le cas, il est toujours possible de calculer les degrés de signi cation et de se ramener à une distribution normale en 3
4 e ectuant la transformation 1 (P ) où est la fonction de répartition d une distribution normale centrée réduite). Lorsqu il existe des covariables non observées ou de fortes corrélations sou H 0 entre les statistiques, la distribution réelle sous l hypothèse nulle peut être éloignée de la distribution théorique, et l utilisation de la distribution théorique peut avoir des conséquences importantes sur les conclusions de l analyse. La méthode proposée par Efron [4] reste basée sur l hypothèse que la statistique de test suit sous l hypothèse nulle une distribution normale, mais les paramètres de cette distribution sont estimés à partir des données observées. Sous cette hypothèse, la variance 2 2 d 0 est égale à 2 log f(t) = d2 1 dt 2 dt cte : L espérance 0 est estimée par la t 0 0 valeur correspondant au maximum de la densité marginale estimée. Pour estimer la variance, une régression polynomiale d ordre 2 des valeurs estimées de log f k sur les valeurs de x k proches de b 0 est e ectuée, ce qui permet d obtenir une estimation de la variance 2 0. Procédure de Aubert et coll. (2004) La méthode proposée par Aubert et coll. [5] est basée sur la distribution des degrés de signi cations ordonnés P (1) P (2) ::: P (m). En supposant que les degrés de signi cation suivent, sous H 0, une loi uniforme, la densité conditionnelle des degrés de signi cation sous H 0 est égale à 1. La probabilité 0 est estimée suivant la méthode proposée par Storey et Tibshirani [7]. Si les P values suivent une loi uniforme sous l hypothèse nulle, la relation (1) devient: f(p) = 0 + (1 0 )f 1 (p); et f(1) est le plus petit majorant de 0 basé sur (1). En considérant ^ 0 () = #fp i > ; i = 1; :::; mg=m(1 ) qui est un estimateur de 1 F () 1 (où F la fonction de répartition marginale de P ), Storey et Tibshirani [7] ont proposé d utiliser une méthode de lissage basée sur des splines cubiques pour estimer la quantité lim!1 ^ 0 () qui est égale à ^f(1). La densité marginale f(p) est estimée en deux étapes. Dans une première étape, pour Pr(P 2[p chaque gène i, la densité f(p (i) ) = lim (i) ;p (i) +])!0 est approchée par la quantité 2 Pr(P 2[p (i 1) ;p (i) ]) p (i) p (i 1) qui est estimée par m(p (i) p (i 1) ) 1 : La variabilité de cet estimateur étant importante, la densité est estimée dans une deuxième étape par un lissage des valeurs obtenues (moyennes mobiles ou régression locale pondérée), de façon à ce que la densité soit monotone. Procédure de Scheid et coll. (2004) La méthode proposée par Sheid et coll. [6] est également basée sur l hypothèse que les degrés de signi cation suivent, sous l hypothèse nulle, une loi uniforme. La densité conditionnelle des degrés de signi cation sous l hypothèse nulle est donc supposée égale à 1, et les deux quantités à estimer sont 0 et f(t). La probabilité 0 est estimée à partir d un algorithme séquentiel descendant (stochastic downhill) visant à séparer l ensemble des gènes/séquences en deux sous ensembles 4
5 de gènes/séquences dont l un suit approximativement une loi uniforme. Un score de Kolmogoro -Smirno mesurant l ajustement des p-values avec une distribution uniforme est calculé pour l ensemble de tous les gènes/séquences. Puis, de manière itéarative, des valeurs, tirées au hasard, sont retirées du premier ensemble de façon à ce que le score calculé sur le sous-ensemble restant soit le plus petit possible. En pratique, la procédure s arrête lorsque aucun score plus petit n a pu être trouvé après 2m itérations. A n de tenir compte de la taille de l échantillon et pour éviter un surajustement, un terme de pénalité est ajouté au score. La distribution marginale des degrés de signi cation est estimée à partir d un découpage de l intervalle [0; 1] en 100 intervalles de mêmes longueur. Le nombres de valeurs contenues dans chaque intervalle permet d obtenir une estimation de la densité f(t). Le localfd est calculé pour ces 100 valeurs, et une estimation du critère est obtenue en tout point à partir de splines cubiques à 7 degrés de liberté appliqués aux 100 valeurs calculées. 3 Procédure d estimation proposée Nous supposons également les degrés de signi cation uniformément distribués sous l hypothèse nulle. Si cette hypothèse n est pas vraie en général, les méthodes de permutations qui peuvent être utilisées pour le calcul des degrés de signi cation (ou dans le calcul de la loi de la statistique de test) [3] permettent de s a ranchir des hypothèses distributionnelles et la distribution des p-values ainsi obtenues approche dans la plupart des cas une distribution uniforme. La probabilité 0 est estimée suivant la méthode LBE que nous avons proposée. Tout d abord, notons que E(P ) E 0 = (P ) 0 + (1 0 ) E 1(P ) où E E 0 (P ) 0(P ) et E 1 (P ) sont les espérances de la distribution conditionnelle de P sous H 0 et sou H 1. En supposant P que les p-values sont uniformément distribuées sous H 0, E 0 (P ) = 1=2. Ainsi, b 0 = 2 1 m m i=1 P i qui est un estimateur sans biais de E(P ) ; est un estimateur de E 0 (P ) 0 dont le biais est positif: Sous certaines conditions non détaillées ici, nous avons montré qu une P transformation des p-values conduit à un estimateur de 0 moins biaisé que b 0 = 2 1 m m i=1 P i. Dans l ensemble des fonctions véri ant les conditions requises, nous avons considéré les fonctions '(P ) = ln(1 x) n ; n 2 N, et nous avons montré que ces fonctions conduisent à une famille d estimateurs de 0 dont le biais est décroissant avec n. Comme sous l hypothèse nulle, ln(1 P ) suit une loi exponentielle de paramètre 1; E 0 ([ ln(1 P )] n ) = n! et la famille d estimateurs proposée est : ^ 0(n) = (n!) P 1 m m i=1 [ Log(1 p i)] n ; n 2 N: Pour cette famille d estimateurs, nous avons montré qu une borne supérieure de la variance asymptotique peut s écrire m 1 n 1 : Comme le biais est décroissant avec 2n n alors que la variance est croissante, nous avons proposé une règle pratique pour choisir un estimateur particulier dans la famille d estimateurs. Pour un nombre spéci que m d hypothèses testées, nous avons proposé de choisir n en fonction d un seuil arbitraire l 5
6 pour le majorant de la variance asymptotique. En utilisant cette transformation '(P ) des degrés de signi cation, nous présenterons une estimation de la densité marginale à partir d estimateurs à noyaux. Une estimation du localfd en sera déduite. 4 Simulations et application Nous présenterons les résultats d une étude de simulation visant à comparer les di érentes procédures d estimation du localfd. Les données simulées seront générées de façon à mimer des données correspondant au cadre considéré par Efron [4]. Des situations pour lesquelles une forte proportion de gènes sont modi és seront également considérées. Nous présenterons en n les di érentes méthodes appliquées à di érents jeux de données d oncologie clinique. eferences [1] Benjamini Y., Hochberg Y. (1995) Controlling the false discovery rate : a practical and powerful approach to multiple testing. J Stat Soc Ser B, 57, [2] Storey J.D. (2001) A direct approach to false discovery rates. J Stat Soc Ser B; 64, [3] Efron B., Tibshirani., Storey J., Tusher V. (2001) Empirical Bayes Analysis of a Microarray experiment. J Am Stat Assoc, 96, [4] Efron, B. (2004) Large-scale simultaneous hypothesis testing: the choice of a null hypothesis. J Am Stat Assoc, 99, [5] Aubert, J.; Bar-Hen, A.; Daudin, J.J.; obin, S. (2004) Determination of the di erentially expressed genes in microarray experiments using localfd, BMC Bioinformatic, Sep 06;5(1):125. [6] Scheid S, Spang (2004). A stochastic downhill search algorithm for estimating the local false discovery rate. IEEE Transactions on Computational Biology and Bioinformatics 1(3), [7] Storey JD, Tibshirani. (2003) Statistical signi cance for genome-wide studies. Proc Natl Acad Sci, 100, [8] Dalmasso, C; Broet, P.; Moreau, T. (2004) A simple procedure for estimating the false discovery rate. Bioinformatics. Advance Access published on 12 Oct. 6
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détailLimites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Plus en détailLa survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailExercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailActuariat I ACT2121. septième séance. Arthur Charpentier. Automne 2012. charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.
Actuariat I ACT2121 septième séance Arthur Charpentier charpentier.arthur@uqam.ca http ://freakonometrics.blog.free.fr/ Automne 2012 1 Exercice 1 En analysant le temps d attente X avant un certain événement
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailBaccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé
Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailUNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1
33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est
Plus en détailModélisation géostatistique des débits le long des cours d eau.
Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des
Plus en détailMODELES DE DUREE DE VIE
MODELES DE DUREE DE VIE Cours 1 : Introduction I- Contexte et définitions II- Les données III- Caractéristiques d intérêt IV- Evènements non renouvelables/renouvelables (unique/répété) I- Contexte et définitions
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailIFT3245. Simulation et modèles
IFT 3245 Simulation et modèles DIRO Université de Montréal Automne 2012 Tests statistiques L étude des propriétés théoriques d un générateur ne suffit; il estindispensable de recourir à des tests statistiques
Plus en détailProjet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale
Projet de thèse Intitulé de la thèse Détection automatisée de signaux en pharmacovigilance : Exploitation conjointe de données de notifications spontanées et médico- administratives. Spécialité du doctorat
Plus en détailIntroduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailChapitre 7 : Intégration sur un intervalle quelconque
Universités Paris 6 et Paris 7 M1 MEEF Analyse (UE 3) 2013-2014 Chapitre 7 : Intégration sur un intervalle quelconque 1 Fonctions intégrables Définition 1 Soit I R un intervalle et soit f : I R + une fonction
Plus en détailContinuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailChapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailModélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailUFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailPRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.
PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.. Donner les erreurs en position, en vitesse et en accélération d un système de transfert F BO = N(p) D(p) (transfert en boucle ouverte) bouclé par retour
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailProbabilités conditionnelles Loi binomiale
Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard
Plus en détailPrincipe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détail3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Plus en détailBaccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé
Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailTABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détail4 Distributions particulières de probabilités
4 Distributions particulières de probabilités 4.1 Distributions discrètes usuelles Les variables aléatoires discrètes sont réparties en catégories selon le type de leur loi. 4.1.1 Variable de Bernoulli
Plus en détailTests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision
Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous
Plus en détailFIMA, 7 juillet 2005
F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailDétection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,
Plus en détailLa méthode de régression par discontinuité et l évaluation des politiques de l emploi
La méthode de régression par discontinuité et l évaluation des politiques de l emploi Thomas Lemieux University of British Columbia Le 24 novembre 2009 Plan de la présentation La méthode de régression
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détail1 Définition de la non stationnarité
Chapitre 2: La non stationnarité -Testsdedétection Quelques notes de cours (non exhaustives) 1 Définition de la non stationnarité La plupart des séries économiques sont non stationnaires, c est-à-direqueleprocessusquiles
Plus en détailAnalyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques
Plus en détailChapitre 6 Test de comparaison de pourcentages χ². José LABARERE
UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables
Plus en détailÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE
ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca
Plus en détailGestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailUNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE
UNIVERSITÉ PARIS-SUD 11 FACULTÉ DE MÉDECINE Année : 2009 N attribué par la bibiothèque THÈSE en vue de l obtention du diplôme de DOCTEUR DE L UNIVERSITÉ PARIS-SUD 11 Spécialité : BIOSTATISTIQUE Présentée
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailEstimation et tests statistiques, TD 5. Solutions
ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur
Plus en détailCorrection du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailEXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG
Exploitations pédagogiques du tableur en STG Académie de Créteil 2006 1 EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG Commission inter-irem lycées techniques contact : dutarte@club-internet.fr La maquette
Plus en détailTABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Plus en détailImage d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détailLa problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
Plus en détailL approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011
L approche de régression par discontinuité Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011 Plan de la présentation L approche de régression par discontinuité (RD) Historique
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailSoit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.
ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle
Plus en détailRappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Plus en détailVI. Tests non paramétriques sur un échantillon
VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes
Plus en détailSuites numériques 3. 1 Convergence et limite d une suite
Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailExercice 3 (5 points) A(x) = 1-e -0039' -0 156e- 0,039x A '() -'-,..--,-,--,------:-- X = (l_e-0,039x)2
Les parties A et B sont indépendantes. Partie A Exercice 3 (5 points) Commun à tous les candidats On considère la fonction A définie sur l'intervalle [1 ; + 00 [ par A(x) = 1-e -0039' ' x 1. Calculer la
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailLE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailRÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile
RÉSUMÉ DE THÈSE L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile avec des estimations de deux projets sur trois peinent à donner un résultat satisfaisant (Nelson,
Plus en détailIntroduction à la statistique non paramétrique
Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non
Plus en détailLa fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailBac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)
Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures) Eercice 1 (5 points) pour les candidats n ayant pas choisi la spécialité MATH Le tableau suivant donne l évolution du chiffre
Plus en détailChapitre 7. Récurrences
Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,
Plus en détailChapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme
Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailContinuité d une fonction de plusieurs variables
Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détail