Analyse des données génétiques : approches. Christophe LALANNE 13 novembre 2009
|
|
|
- Charlotte Coutu
- il y a 10 ans
- Total affichages :
Transcription
1 Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales Christophe LALANNE 13 novembre 2009
2 Plan de l exposé Type de données et enjeux épidémiologiques Approche exploratoire univariée «génome entier» Robustesse des résultats Approches multivariées Perspectives neuroimagerie génomique Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 2 / 20
3 Problématique générale Les études de «cartographie» des QTL (Quantitative Trait Loci mapping) visent à répondre aux questions suivantes : existe-t-il des régions chromosomales exhibant des variants génétiques qui influencent les variations d un trait héritable? peut-on identifier précisément ces variants génétiques ou polymorphismes? quelle est la contribution de ces variants au niveau des variations du trait dans la population? On distingue deux approches bien distinctes : les études de liaison (linkage) et les études d association, ces dernières étant plus adaptées aux traits complexes (de nature polygénique). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 3 / 20
4 Les études d association (GWAS) En dehors des données d expression (produits de gène), on dispose de plus en plus de données de génotypage, en particulier les polymorphismes de séquence (SNP). AACGAT AAGGAT Ces variations sur la séquence génomique sont observés de manière consistante ( 1% des populations) et sont susceptibles de rendre compte des différences inter-individuelles du point de vue d un phénotype particulier (trait physique, mesure biologique, maladie). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 4 / 20
5 Une démarche incrémentale Démarche générale : 1. GWAS sur puce Illumina/Affymetrix (500k à 1000k SNP) 2. Étude de réplication sur échantillon indépendant (cohorte ou CC) 3. Analyse approfondie des locus d intérêt aux effets «robustes» 4. Étude de liaison (aggrégation familiale) Enjeux statistiques : comparaisons multiples, tests corrélés puissance, portée généralisante fidélité/précision de mesure de la variable comportementale Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 5 / 20
6 Approches statistiques univariées L objectif est d isoler des biomarqueurs expliquant une part significative de la variabilité observée au niveau d un phénotype particulier (expression d un gène, statut/score du sujet, etc.). Classiquement, on applique un GLM en traitant la fréquence allélique du variant comme une variable numérique, et en tenant compte des éventuels facteurs de confusion (sexe, âge, centre de génotypage). La fréquence allélique dépendant de la population considérée, on stratifie généralement les analyses par rapport au facteur d ethnicité. Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 6 / 20
7 Illustrations (1) CPNE1 -log10 p Gaussian LM [1df] CPNE e+00 1e+07 2e+07 3e+07 4e+07 5e+07 6e+07 position on chr 20 A/A A/B B/B rs Données d expression pour le gène CPNE1 données de génotypage (CEPH) d individus européens. Distribution allélique (B = allèle mineur) Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 7 / 20
8 Illustrations (2) p value (0,1e-10] (1e-10,1] Genetic model: log-additive chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 chr21 chr Genomic Position Exemple à partir des données Hapmap (Gonzalez et al., 2007) Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 8 / 20
9 Robustesse des résultats La multiplicité des tests non-indépendants se traduit par une inflation du risque de conclure à tort à l existence d un effet (risque de première espèce α). Typiquement, en considérant que l on travaille sur tous les SNP communs, on choisit un risque unitaire de (Dudbridge and Gusnanto, 2008). Or il s agit d une correction très conservatrice (FWER, Bonferroni) qui risque de masquer des effets importants sur le plan fonctionnel bien que peu exprimé du point de la taille de leur effet. Alternatives possibles : contrôler le risque de fausses détections (FDR) (Dudoit and van der Laan, 2008). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 9 / 20
10 Perspectives épidémiologiques (1) Crédit: Psychiatric GWAS Consortium Coordinating Committee, Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 10 / 20
11 Perspectives épidémiologiques (2) Informations complémentaires disponibles sur les sites GWAS synthesis et Psychiatric GWAS Consortium Crédit: Psychiatric GWAS Consortium Coordinating Committee, Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 11 / 20
12 Approches statistiques multivariées On s intéresse à la modélisation des liens entre deux blocs de données. Ce type d études devient de plus en plus fréquent, que ce soit en génomique (Parkhomenko et al., 2007), transcriptomique (Lê Cao et al., 2009), ou dans le cadre génétique neuroimagerie (Hardoon et al., 2009). Questions afférentes : 1. Comment sélectionner les prédicteurs d intérêt? 2. Quel modèle multivarié choisir? (cas n p + q) 3. Comment évaluer ses performances? (généralisation) 4. Comment comparer les résultats de différents modèles? Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 12 / 20
13 État de l art sur la question multivariée Les méthodes multivariées comme la PLS, la CCA ou l analyse de coinertie ont permis de mettre en évidence des liens intéressants entre des données de transcriptomique, de génomique et de neuroimagerie, en considérant un nombre limité de variables latentes expliquant la variance de leur propre bloc ainsi qu une part significative du lien inter-blocs. Toutefois, il est nécessaire d introduire des techniques de régularisation de type L 1 («lasso»), L 2 («ridge») ou L 1 L 2 («elasticnet») pour pallier la grande dimensionnalité des données et aboutir à des résultats interprétables (Parkhomenko et al., 2007, 2009, Witten and Tibshirani, 2009, Lê Cao et al., 2008 and González et al., 2009). D autre part, les problèmes de sur-ajustement et de généralisabilité doivent être pris en considération, en utilisant des méthodes de validation croisée (Guyon et al., 2006). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 13 / 20
14 Un exemple : la régression PLS 1. Modèle de régression reposant sur l idée de construire des combinaisons linéaires (orthogonales) des variables d intérêt de chaque bloc tout en maximisant leur covariance : max cov(x h 1u h, Y v h ) u h =1, v h =1 ( max cov(ξh, ω h ) ) i n X t i u 1 p X Y t i v 1 ξ 1 ξ 2 ω 1 ω q Y 2. En d autres termes, on cherche des variables latentes qui rendent compte ua maximum de l information (linéairement) contenue dans le bloc X tout en permettant de prédire le bloc Y avec une erreur minimale. 3. Comme n p + q, on peut imposer une pénalisation sur le poids des variables et ne retenir que celles qui ont la contribution la plus importante. ˆβ LASSO = arg min β Y Xβ 2 +λ β 1, avec β 1 = p β j j=1 u 1 u 2 v 1 v La corrélation entre les scores factoriels sur la première dimension (ξ 1 et ω 1 ) reflète l ampleur du lien X Y. D autres méthodes multivariées peuvent être considérées, e.g. sparse ou ridge CCA. Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 14 / 20
15 Méthodologie statistique dans le cas n p + q Le grand nombre de paramètres à estimer entraîne un risque de sur-ajustement du modèle aux données observées. En conséquence, il est indispensable d évaluer dans quelle mesure les prédictions du modèle choisi sont généralisables à de nouvelles données (pouvoir de généralisation), e.g. Molinaro et al. (2005). Principe de la validation croisée : 1. estimer le modèle sur les individus d apprentissage, 2. tester le modèle sur le ou les individu(s) de test. Bootstrap k-fold leave-one-out 1 apprentissage test n individus Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 15 / 20
16 Génétique et neuroimagerie On s intéresse à la modélisation des liens entre des données de génotypage (haute densité) et des données de neuroimagerie (IRMf) avec l objectif de mettre en évidence des réseaux de covariation entre les gènes et les activations cérébrales. À terme, cela peut permettre de prédire un phénotype clinique ou comportemental particulier à partir de ces biomarqueurs. Crédit: Williams et al., Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 16 / 20
17 Méthodologie proposée Utilisation d une procédure 10-fold CV, enchâssée dans un schéma de ré-échantillonnage (1000 permutations), 1. analyse génome entier pour tester chaque SNP vs. un ensemble de ROI distribuées dans le cerveau (test F ) ; i X (N x P) 2. sélectionner les SNP classés selon leur p-valeur (non ajustée); 3. appliquer le modèle PLS avec des paramètres de régularisation variables sur l échantillon d apprentissage ; SNPs selection 4. calculer la statistique de test (produit vectoriel des scores factoriels, corrélation canonique en CCA) sur l échantillon de test ; 5. estimer la p-valeur empirique associée à cette statistique de test sous l hypothèse nulle. i X (N x p) Y (N x q) u 1 v 1 u ( i) 1 x i,v ( i) 1 y i Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 17 / 20
18 Conclusion Les données de grande dimension posent des problèmes sur le plan computationnel mais également du point de l interprétation des résultats. Dans une approche confirmatoire, la question de la robustesse des résultats devient cruciale, en particulier lorsque l on étudie des traits discrets rares (faible prévalence). Il est donc nécessaire de développer des méthodes de validation croisée pour optimiser les paramètres des modèles, et de réaliser des méta-analyses pour confirmer les résultats acquis (Ioannidis et al., 2009). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 18 / 20
19 Références Gonzalez, J. R., Armengol, L., Sole, X., Guino, E. and Mercader, J. M.et al. (2007). SNPassoc: an r package to perform whole genome association studies. Bioinformatics, 23(5): Dudbridge, F. and Gusnanto, A. (2008). Estimation of significance thresholds for genomewide association scans. Genetic Epidemiology, 32: Dudoit, S. and van der Laan, M. J. (2008). Multiple testing procedures with applications to genomics. Springer. Psychiatric GWAS Consortium Coordinating Committee (2009). Genomewide association studies: History, rationale, and prospects for psychiatric disorders. American Journal of Psychiatry, 166(5): Parkhomenko, E., Tritchler, D. and Beyene, J. (2007). Genome-wide sparse canonical correlation of gene expression with genotypes. BMC Proceedings, 1(1):S119. Lê Cao, K.-A., Martin, P., Robert-Granié, C. and P, B. (2009). A sparse pls for variable selection when integrating omics data. BMC Bioinformatics, 10(34). Hardoon, D. R., Ettinger, U., Mourao-Miranda, J., Antonova, E. and Collier, D.et al. (2009). Correlation-based multivariate analysis of genetic influence on brain volume. Neuroscience Letters, 450: Parkhomenko, E., Tritchler, D. and Beyene, J. (2009). Sparse canonical correlation analysis with application to genomic data integration. Statistical Applications in Genetics and Molecular Biology, 8(1). Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 19 / 20
20 Witten, D. M. and Tibshirani, R. J. (2009). Extensions of sparse canonical correlation analysis with applications to genomic data. Statistical Applications in Genetics and Molecular Biology, 8(1). Lê Cao, K.-A., Rossouw, D., Robert-Granié, C. and Besse, P. (2008). A sparse pls for variable selection when integrating omics data. Statistical Applications in Genetics and Molecular Biology, 7(1). González, I., Déjean, S., Martin, P. G. P., Gon alves, O. and Besse, P.et al. (2009). Highlighting relationships through regularized canonical correlations analysis: Applications to high throughput biology data. Journal of Biological Systems, 17(2): Guyon, I., Gunn, S., Nikravesh, M. and Zadeh, L. A., editors (2006). Feature Extraction: Foundations And Applications Springer-Verlag. Williams, R. B. H., Chan, E. K. F. and Cowley, M. J. e. a. (2007). The influence of genetic variation on gene expression. Genome Research, 17. Ioannidis, J. P. A., Thomas, G. and Daly, M. J. (2009). Validating, augmenting and refining genome-wide association signals. Nature Reviews Genetics, 10: Analyse des données génétiques : approches univariées, multivariées et perspectives biomédicales 20 / 20
Gènes Diffusion - EPIC 2010
Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses
Génétique et génomique Pierre Martin
Génétique et génomique Pierre Martin Principe de la sélections Repérage des animaux intéressants X Accouplements Programmés Sélection des meilleurs mâles pour la diffusion Index diffusés Indexation simultanée
TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie
PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux [email protected] www.pressesagro.be
Etude des propriétés empiriques du lasso par simulations
Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Enjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Chapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Principe d un test statistique
Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour [email protected] Une grande partie des illustrations viennent
Introduction à l approche bootstrap
Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?
LES MODELES DE SCORE
LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d
Première partie. Introduction Générale
Première partie Introduction Générale IX L amélioration des espèces cultivées a pour but de produire des variétés présentant des caractéristiques nouvelles pour des caractères d intérêt agronomique (création
Mesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites
La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.
STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
STATISTIQUES. UE Modélisation pour la biologie
STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres
Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015
Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par
Item 169 : Évaluation thérapeutique et niveau de preuve
Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes
MABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS
Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES
Cycle de formation certifiante Sphinx
Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH
Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH Boris Hejblum 1,2,3 & Rodolphe Thiébaut 1,2,3 1 Inserm, U897
Validation probabiliste d un Système de Prévision d Ensemble
Validation probabiliste d un Système de Prévision d Ensemble Guillem Candille, janvier 2006 Système de Prévision d Ensemble (EPS) (ECMWF Newsletter 90, 2001) Plan 1 Critères de validation probabiliste
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement
Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement DIU HTA François Gueyffier Service de pharmacologie clinique UMR CNRS 5558 CIC 201, LYON [email protected]
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010
E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9
Économétrie, causalité et analyse des politiques
Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de
Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier
Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................
Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
NON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes
Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes Baradat P. INRA-Département EFPA UMR AMAP 34398 Montpellier Cedex 5 FRANCE [email protected] Labbé T. INRA-Département
Bases de données des mutations
Bases de données des mutations CFMDB CFTR2 CFTR-France / Registre Corinne THEZE, Corinne BAREIL Laboratoire de génétique moléculaire Montpellier Atelier Muco, Lille, 25-27 septembre 2014 Accès libre http://www.genet.sickkids.on.ca/app
Aide-mémoire de statistique appliquée à la biologie
Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela
DIOGENE. Un logiciel de Génétique & Amélioration des Plantes
DIOGENE Un logiciel de Génétique & Amélioration des Plantes Utilisateurs Etudiants (DEA, thèse) Chercheurs confirmés (INRA, CIRAD, Universités Laval et Lyon 1) Gestionnaires de programmes d Amélioration,
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant
Master de Bioinformatique et Biologie des Systèmes Toulouse http://m2pbioinfo.biotoul.fr Responsable : Pr. Gwennaele Fichant Parcours: Master 1 : Bioinformatique et biologie des Systèmes dans le Master
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Évaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Le risque Idiosyncrasique
Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO
EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO Auteur Baguinébié Bazongo 1 Ingénieur Statisticien Economiste Chef de l Unité de recherche à l Institut national
UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES
Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,
1 Complément sur la projection du nuage des individus
TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent
Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE
UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction
Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
La survie nette actuelle à long terme Qualités de sept méthodes d estimation
La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg
Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle
2013. Journées Recherche Porcine, 45, 213-218. Etude, par simulations, de l intérêt d une sélection génomique dans une population porcine de type mâle Thierry TRIBOUT (1,2), Catherine LARZUL (1,2), Jean
SAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Phamaco-génétique et analyses multivariés
CytoPathfinder Phamaco-génétique et analyses multivariés Besoins biostatistiques d une biotech anglo-japonnaise Olivier Delrieu PolytechLille Octobre 2010 1 Pharmaco-génétique Etude de l influence du génome
TABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Introduction aux bases de données: application en biologie
Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, [email protected] ESIL,
Examen de Logiciels Statistiques
G. Hunault Angers, mai 2011 Licence MEF Examen de Logiciels Statistiques On s intéresse ici au dossier EAEF01 qui contient un extrait des données du recensement américain. On trouvera ces données et leur
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection
Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine
Mortalité observée et mortalité attendue au cours de la vague de chaleur de uillet en France métropolitaine FOUILLET A 1, REY G 1, JOUGLA E, HÉMON D 1 1 Inserm, U75, Villeuif, France. Inserm CépiDc, IFR9,
Document d orientation sur les allégations issues d essais de non-infériorité
Document d orientation sur les allégations issues d essais de non-infériorité Février 2013 1 Liste de contrôle des essais de non-infériorité N o Liste de contrôle (les clients peuvent se servir de cette
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Vanina Bousquet 24 mars 2015
Traitement des données manquantes par une méthode d imputation multiple : Application à des données d enquête et de surveillance des maladies infectieuses Vanina Bousquet 24 mars 2015 Plan 1. Contexte
UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************
************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque
ANALYSE DU RISQUE DE CRÉDIT
ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque
ÉTAT DES LIEUX. Niveau de preuve et gradation des recommandations de bonne pratique
ÉTAT DES LIEUX Niveau de preuve et gradation des recommandations de bonne pratique Avril 2013 Les recommandations et leur synthèse sont téléchargeables sur www.has-sante.fr Haute Autorité de Santé Service
chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d
Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste
Quantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie
S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente
AICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Théorie des Jeux Et ses Applications
Théorie des Jeux Et ses Applications De la Guerre Froide au Poker Clément Sire Laboratoire de Physique Théorique CNRS & Université Paul Sabatier www.lpt.ups-tlse.fr Quelques Définitions de la Théorie des
Réseau sur. Médicaments. l Innocuité et l Efficacité des. Document d orientation pour la présentation de requêtes au RIEM
Réseau sur l Innocuité et l Efficacité des Médicaments Document d orientation pour la présentation de requêtes au RIEM Instituts de recherche en santé du Canada Canadian Institutes of Health Research Version
Analyse de la variance Comparaison de plusieurs moyennes
Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING
CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING SÉLECTION DES RISQUES PRÉVISION DES DÉFAUTS SUIVI ET CONTRÔLE Pierre-Louis GONZALEZ Différents types de
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS
1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5
Gestion obligataire passive
Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage
Evaluer l ampleur des économies d agglomération
Pierre-Philippe Combes GREQAM - Université d Aix-Marseille Ecole d Economie de Paris CEPR Janvier 2008 Supports de la présentation Combes, P.-P., T. Mayer et J.-T. Thisse, 2006, chap. 11. Economie Géographique,
Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires
Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies
Hospital Anxiety and Depression Scale (HADS)
dmt Risques psychosociaux : out ils d é va lua t ion FRPS 13 CATÉGORIE ATTEINTE À LA SANTÉ PHYSIQUE ET MENTALE Hospital Anxiety and Depression Scale (HADS) LANGEVIN V.*, FRANÇOIS M.**, BOINI S.***, RIOU
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest [email protected] Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest [email protected] Programme fédérateur Biogenouest co-financé
L'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Extraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 [email protected] 1 Introduction
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Validation clinique des marqueurs prédictifs le point de vue du méthodologiste. Michel Cucherat UMR CNRS 5558 - Lyon
Validation clinique des marqueurs prédictifs le point de vue du méthodologiste Michel Cucherat UMR CNRS 5558 - Lyon Marqueur prédictif - Définition Un marqueur prédictif est un marqueur qui prédit le bénéfice
K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012 Introduction et contexte 2/27 1 Introduction
Individus et informations supplémentaires
ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter
Retour d expérience. Le rôle du Business Analyst chez Orange. Nadia Magarino & Christophe Dufour 29 avril 2015
Retour d expérience Le rôle du Business Analyst chez Orange Nadia Magarino & Christophe Dufour 29 avril 2015 Plus de 161 000 salariés à votre service mobile entreprises internet et fixe Plus de 161 000
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Que faire lorsqu on considère plusieurs variables en même temps?
Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites
Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht
Actualités sur la sélection des pondeuses Prospections futures Dr. Matthias Schmutz, Lohmann Tierzucht Alimentation et démographie mondiale Augmentation annuelle de 80 millions Croissance surtout dans
Mémo d utilisation de ADE-4
Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose
attitudes envers le dépistage
attitudes envers le dépistage DU CANCER COLORECTAL Le point de vue de la population québécoise novembre 2008 Institut national de santé publique du Québec Direction des systèmes de soins et politiques
L olivier Assurances Licence 3 Econométrie Lyon II
15 novembre 2013 L olivier Assurances Licence 3 Econométrie Lyon II Pascal Gonzalvez 1 L olivier Assurances et le Groupe Admiral Segmentation et tarification en assurance auto Autres applications de la
Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014
Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014 1 Classiquement, le Big Data se définit autour des 3 V : Volume, Variété et
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)
OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) LAGGOUNE Radouane 1 et HADDAD Cherifa 2 1,2: Dépt. de G. Mécanique, université de Bejaia, Targa-Ouzemour
ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
MAP 553 Apprentissage statistique
MAP 553 Apprentissage statistique Université Paris Sud et Ecole Polytechnique http://www.cmap.polytechnique.fr/~giraud/map553/map553.html PC1 1/39 Apprentissage? 2/39 Apprentissage? L apprentissage au
Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
