Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon



Documents pareils
Etude des propriétés empiriques du lasso par simulations

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

TABLE DES MATIERES. C Exercices complémentaires 42

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Introduction au Data-Mining

Introduction à l approche bootstrap

Introduction au Data-Mining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Enjeux mathématiques et Statistiques du Big Data

La classification automatique de données quantitatives

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 3. Les distributions à deux variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Introduction au datamining

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Arbres binaires de décision

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Évaluation de la régression bornée

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

MCMC et approximations en champ moyen pour les modèles de Markov

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Apprentissage Automatique

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Principe de symétrisation pour la construction d un test adaptatif

Méthodes de Simulation

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

NON-LINEARITE ET RESEAUX NEURONAUX

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

4.2 Unités d enseignement du M1

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

«Cours Statistique et logiciel R»

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Programmes des classes préparatoires aux Grandes Ecoles

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Figure 3.1- Lancement du Gambit

Simulation de variables aléatoires

3 Approximation de solutions d équations

INF6304 Interfaces Intelligentes

Projet de Traitement du Signal Segmentation d images SAR

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Analyse en Composantes Principales

Quantification Scalaire et Prédictive

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Modélisation aléatoire en fiabilité des logiciels

Texte Agrégation limitée par diffusion interne

Modélisation géostatistique des débits le long des cours d eau.

Transmission d informations sur le réseau électrique

Chp. 4. Minimisation d une fonction d une variable

1 Complément sur la projection du nuage des individus

Résolution d équations non linéaires

Chapitre 2 Le problème de l unicité des solutions

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Optimisation, traitement d image et éclipse de Soleil

IBM SPSS Regression 21

Résumés des projets de GMM5-2014/2015

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

1 Introduction et modèle mathématique

PROBABILITES ET STATISTIQUE I&II

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Probabilités III Introduction à l évaluation d options

de calibration Master 2: Calibration de modèles: présentation et simulation d

5. Apprentissage pour le filtrage collaboratif

Logiciel XLSTAT version rue Damrémont PARIS

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Chaînes de Markov au lycée

NOTICE DOUBLE DIPLÔME

Résolution de systèmes linéaires par des méthodes directes

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

STATISTIQUES. UE Modélisation pour la biologie

Mesure agnostique de la qualité des images.

Exercice : la frontière des portefeuilles optimaux sans actif certain

CHAPITRE 5. Stratégies Mixtes

Vérification audiovisuelle de l identité

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Master de Recherche première année. Programme de cours

10ème Congrès Français d'acoustique Lyon, Avril 2010

Apprentissage statistique dans les graphes et les réseaux sociaux

Fonctions de plusieurs variables

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Identification de nouveaux membres dans des familles d'interleukines

Cours d analyse numérique SMI-S4

Mesures de dépendance pour la séparation aveugle de sources. Application aux mélanges post non linéaires

Modèles et Méthodes de Réservation

Présentation du PL/SQL

Transcription:

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis with Support Vector Machines 2 2 A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis 2 3 Efficient RNA Isoform Identification and Quantification from RNA-Seq Data with Network Flows 3 4 Spatial smoothing and hot spot detection for CGH data using the fused lasso 3 5 Penalized logistic regression for high-dimensional DNA methylation data with case-control studies 4 6 On Estimating many means, selection bias and the bootstrap 4 7 High-dimensional graphs and variable selection with the lasso 5 8 Block coordinate descent algorithms for large-scale sparse multiclass classification 6 9 Supervised Feature Selection in Graphs with Path Coding Penalties and Network Flows 6 10 On the convergence of the iterates of FISTA 7 1

1 Graph Kernels for Molecular Structure-Activity Relationship Analysis with Support Vector Machines Description. http ://cbio.ensmp.fr/ jvert/svn/bibli/local/mahe2005graph.pdf Les noyaux définis positifs sont des mesures de similarités entre objets. On peut montrer qu un noyau entre deux objets est équivalent à un produit scalaire pris sur une certaine description (vectorielle ou fonctionnelle) de ces objets. Cette propriété fait des noyaux un outil utile pour appliquer des outils statistiques ne dépendant des données que via leurs produits scalaires à des objets complexes comme des polymères ou des molécules se prêtant difficilement à des descriptions vectorielles explicites. Ce papier présente un noyau pour molécules (vues comme des graphes), et son application à la prédiction de mutagénicité. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Expliquer le principe des noyaux définis positifs. Expliquer le noyau introduit dans l article : principe et algorithme. (2/2) Comparer une méthode d apprentissage statistique de votre choix utilisant le noyau du papier à une méthode utilisant des descripteurs plus naifs (http://www.predictive-toxicology.org/data/cpdb_mutagens/properties. tab) Données décrites ici : http://citeseerx.ist.psu.edu/viewdoc/download; jsessionid=70a0e98b0d568d91665e197c59da34ee?doi=10.1.1.411.7584&rep= rep1&type=pdf Disponibles ici : http://www.predictive-toxicology.org/data/cpdb_ mutagens/ Code : http://chemcpp.sourceforge.net/html/index.html mahe.2005.pdf L. Jacob 2 A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis Description. Ce papier présente une famille de méthodes d analyse exploratoire, qui maximisent certains critères statistiques (variance, covariance) sur des données. Ces maximisations sont faites sous certaines contraintes (sparsité, positivité), censées conduire à des résultats plus interprétables biologiquement. 2

Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Expliquer le principe de la CCA, et de la sparse CCA (section 4 du papier biostatistics). Principes statistiques, motivation biologique, algorithme. (2/2) Implémentation : sparse CCA sur données synthétiques (code dispo sur la page de D. Witten). Generer des données X, Y dont certaines combinaisons linéaires (éventuellement sparse) de colonnes sont corrélées. Etudier l effet du nombre d échantillons, de la dimension de X et Y, des contraintes sur le résultat obtenu. witten.2009.pdf L. Jacob 3 Efficient RNA Isoform Identification and Quantification from RNA-Seq Data with Network Flows Description. Ce papier présente un algorithme permettant de calculer efficacement un estimateur de l expression des isoformes d un gène dans des données RNA-Seq. Cet estimateur (de type maximum a posteriori) implique la maximisation d une vraisemblance sous contraintes l1 dans un espace de très grande dimension. Le calcul de l estimateur est rendu possible par l équivalence de ce problème de maximisation comme un problème d optimisation de flot sur un graphe. Travail demandé. (1/2) Oral 10 minutes + 5 minutes de questions. Expliquer le problème biologique et l estimateur proposé (loss de Poisson et contrainte l1). Montrer l équivalence entre le problème de maximisation de la vraisemblance a posteriori et le problème de flot. (2/2) Implémentation : consignes précises à venir. Utiliser le package flipflop pour estimer l ensemble d isoformes présents dans les données qui seront fournies. besnard.2013.pdf L. Jacob 4 Spatial smoothing and hot spot detection for CGH data using the fused lasso Description. Cet article propose une méthode d analyse des données provenant de la technologie des microarrays CGH. Cette technologie permet de mesurer le nombre de copie des gènes le long du chromosome en une seule expérience. La méthode proposée consiste à considérer un modèle de 3

régression particulier (avec X =Identité) dont les paramètres sont sujets à deux contraintes, une sur la valeur absolue des coefficients, et l autre sur la valeur absolue des différences entre coefficients successifs. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Présentez la problématique biologique et la nature des données à analyser, et motivez la stratégie proposée dans l article. (2/2) Reprendre le schéma de simulation de l article et étudiez les propriétés empiriques de la méthode en terme de détection des points de rupture. tibshirani.2007.pdf F. Picard 5 Penalized logistic regression for high-dimensional DNA methylation data with case-control studies Description. Cet article présente une méthode pour analyser les données de méthylation dans le cadre d études d association. Le modèle utilisé est la régression logisique, et la méthode de sélection proposée consiste à utiliser une généralisation de la pénalité l elastic-net à des variables dont les coefficients sont supposés structurés le long d un graphe. Travail demandé. Oral 10 minutes + 5 minutes de questions. Présentez la problématiques des données de méthylation et leur originalité par rapport aux données classiques d expression ou de SNP. Après avoir présenté et discuté la méthode proposée dans l article (notamment concernant le choix de la pénalisation), vous discuterez de l influence du graphe sur les performances de la méthode. Que se passe-t-il? Proposez des interprétations. sun.2012.pdf F. Picard 6 On Estimating many means, selection bias and the bootstrap Description. Dans les études d association sur données génomiques (GWAS, etc..), pour chacun des nombreux marqueurs disponibles, on peut effectuer un test et estimer une grandeur d effet (e.g., odds-ratio conditionnel ou non). Généralement, un intérêt tout particulier est porté aux grandeurs d effet estimées pour les marqueurs les plus significatifs. On peut cependant montrer 4

que les estimateurs standard de ces grandeurs d effet sont biaisés, d autant plus que le nombre de marqueurs initiaux est élevé. Dans cet article, les auteurs proposent une approche pour corriger ce biais et fournir ainsi de meilleurs estimateurs des grandeurs d effet associées aux marqueurs retenus par l étude. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Expliquer le principe du problème sous-jacent (montrer notamment en quoi ce problème est une illustration de la régression vers la moyenne ; vous pourrez également illustrer le fait que la loi de {max i X i, 1 i n} n est pas la même que celle des (X i ) 1 i n, par exemple en prenant X i U [0,1] ). Présenter ensuite le principe de la méthode (First order Bias). (2/2) Implémen-tation : Implémenter la méthode et l illustrer sur quelques exemples simples (plutà t que le MSE, considérer les biais pour les variables sous (H 0 ), et sous (H 1 ) ; étudier ces biais en fonction du design, de n, de p, etc.). simonsimon-2013.pdf V. Viallon 7 High-dimensional graphs and variable selection with the lasso Description. Cet article s intéresse au cadre de l estimation de la structure dans les modèles graphiques gaussiens, qui permettent l étude des relations d indépendance conditionnelle entre les composantes d un vecteur gaussien. Les auteurs proposent une méthode approchée pour estimer cette structure, qui repose sur l utilisation de régressions linéaires pénalisées (Lasso). Des résultats théoriques sont obtenus, et la méthode est illustrée sur des données simulées. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Après avoir fait quelques rappels sur les vecteurs gaussiens (notamment le théorème de corrélation normale), présenter le principe général de la méthode (en particulier, expliquer pourquoi les indépendances conditionnelles correspondent aux zéros de la matrice de concentration et aux zéros dans les vecteurs de coefficients des régressions linéaires considérées.) Résumer les résultats théoriques du papier et les hypothèses sous lesquelles ils ont été obtenus (en particulier, les rapprocher des hypothèses vues en cours pour établir les propriétés du Lasso). (2/2) Implémentation : Implémenter la méthode et la comparer aux résultats du package glasso sur quelques exemples. meinshausenbuhlmann-2006.pdf 5

V. Viallon 8 Block coordinate descent algorithms for largescale sparse multiclass classification Description. Cet article s intéresse au problème de sélection de features en classification. Les auteurs proposent une extension multiclasse de la fonction de coût hinge quadratique et la sélection de features s effectue grâce à une pénalisation de type l 1,2. L algorithme proposé est une variante de l algorithme de descente par bloc de coordonnées qui conduit à de meilleures performances que celles aobtenues avec des algorithmes de l état de l art tels que FISTA. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Détailler le critère proposé par les auteurs et justifier le choix de chacun des termes. Présenter les deux variantes de l algorithme de descente par bloc. Quelles sont les garanties de convergence de ces algorithmes? (2/2) Reprendre l exemple étudié en TP (minimisation logistique + l1) et résoudre le problème associé avec les algorithmes proposés dans cet article. Commentez les résultats obtenus. blondel.2013.pdf Tutrice. N. Pustelnik 9 Supervised Feature Selection in Graphs with Path Coding Penalties and Network Flows Description. Description. Cet article s intéresse au problème d apprentissage supervisé en combinant l hypothèse usuelle de parcimonie avec une hypothèse de structure de graphe. Plus précisément pour un graphe donné a priori sur les variables, les pénalités proposées conduisent à des estimateurs linéaires parcimonieux à l échelle des groupes de variables, oùles groupes correspondent à des chemins sur le graphe. Autrement dit, le support des estimateurs obtenus en minimisant le risque empirique pénalisé de cette manière correspondra typiquement à un petit nombre de chemins sur le graphe des variables. Une application est proposée en pronostic de cancer du sein, oùl on souhaite construire un estimateur n impliquant qu un petit nombre de composantes connexes sur le graphe décrivant les interactions connues entre les gènes. 6

Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Décrire l intérêt de cette régularisation, sa formulation, sa relaxation convexe, l opérateur proximal associé, et l algorithme utilisé dans le cas convexe.(2/2) Générer des données synthétiques à partir d un modèle linéaire, où le support de la fonction linéaire correspond à différents nombres de composantes connexes sur un graphe donné. Utiliser le code disponible sur http://spams-devel. gforge.inria.fr/ pour évaluer sur ces données l impact de ce type de régularisation en fonction du nombre de composantes connexes. Évaluer également l impact du paramètre λ sur les propriétés de l estimateur. Tutrice. mairal.2013.pdf N. Pustelnik 10 On the convergence of the iterates of FISTA Description. Cet article s intéresse à la converge des itérées de l algorithme FISTA, proposé par Beck et Teboulle en 2009. FISTA permet de minimiser une somme de deux fonctions convexes, propres, semi-continues inférieurement dont l une est de gradient Lipschitz. L article de Beck et Teboulle s intéressait principalement au taux de convergence FISTA et à sa convergence en terme de fonctionnelle. Dans l article que nous vous proposons d étudier, les auteurs montrent que la convergence des itérées peut être garantie si certaines hypothèses de FISTA sont modifiées. Les performances de l algorithme sont étudiées sur une exemple de restauration d images. Travail demandé. (1/2) Oral 10 minutes + 5 min de questions. Présenter les caractéristiques du critère pouvant être résolu par FISTA. Détailler les itérations de FISTA ainsi que les hypothèses originalement introduite par Beck et Teboulle pour assurer la convergence de la fonctionnelle. Détailler les modifications faites par Chambolle et Dossal dans les hypothèses de FISTA permettant d assurer la convergence des itérées. Donner les grandes lignes de la preuve permettant de montrer la convergence des itérées. Pourquoi la convergence des itérées est-elle importante? Détailler les avantages/inconvénients de FISTA/ISTA/Forward-Backward. (2/2) En utilisant l exemple étudié en TP (minimisation logistique + l1), comparer l algorithme forward-backward, FISTA et la version modifiée par les auteurs. Tutrice. chambolle.2014.pdf N. Pustelnik 7