Algorithmes sur les arbres et les graphes en bioinformatique

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Plus courts chemins, programmation dynamique

Intégration de la dimension sémantique dans les réseaux sociaux

Resolution limit in community detection

Jean-Philippe Préaux

Gestion des Clés Publiques (PKI)

Les structures de données. Rajae El Ouazzani

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Modélisation multi-agents - Agents réactifs

MABioVis. Bio-informatique et la

FORD C-MAX + FORD GRAND C-MAX CMAX_Main_Cover_2013_V3.indd /08/ :12

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Cours de Master Recherche

Eléments de Théorie des Graphes et Programmation Linéaire

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Équations non linéaires

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Résolution d équations non linéaires

Big Data et Graphes : Quelques pistes de recherche

Programmation linéaire

Chapitre 5 : Flot maximal dans un graphe

INF6304 Interfaces Intelligentes

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle


Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

données en connaissance et en actions?

Big Data et Graphes : Quelques pistes de recherche

Initiation à LabView : Les exemples d applications :

Partie 1. La structure des réseaux sociaux

Annexe 6. Notions d ordonnancement.

Les technologies du Big Data

Algorithmes de recherche

M2S. Formation Management. formation. Animer son équipe Le management de proximité. Manager ses équipes à distance Nouveau manager

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Techniques d interaction dans la visualisation de l information Séminaire DIVA

III- Raisonnement par récurrence

VI. Tests non paramétriques sur un échantillon

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Ebauche Rapport finale

Travaux pratiques avec RapidMiner

Programmation linéaire

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

Modélisation et Simulation

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Apprentissage statistique dans les graphes et les réseaux sociaux

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Systèmes d information et bases de données (niveau 1)

4 Exemples de problèmes MapReduce incrémentaux

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Gestion des Incidents (Incident Management)

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

L ALGORITHMIQUE. Algorithme

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

CHAPITRE I INTRODUCTION

Revue d article : Dynamic Replica Placement for Scalable Content Delivery

Les mécanismes d'assurance et de contrôle de la qualité dans un

La classification automatique de données quantitatives

Techniques de Lyapunov en contrôle quantique pour le couplage dipolaire et polarisabilité

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

L exclusion mutuelle distribuée

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Matrice d accès. Master SEMS, Pierre Paradinas. October 16, 2013

FaceBook aime les Maths!

Quelques algorithmes simples dont l analyse n est pas si simple

Cours 02 : Problème général de la programmation linéaire

Les arbres binaires de recherche

gestion des processus La gestion des processus

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Introduction au Data-Mining

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Cours d analyse numérique SMI-S4

Programmation Linéaire - Cours 1

Raisonnement probabiliste

Les fonctions de hachage, un domaine à la mode

Microsoft Excel : tables de données

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Journée technique ARRA Gestion quantitative de la ressource en eau

Analyse en Composantes Principales

DNS ( DOMAIN NAME SYSTEM)

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Information génétique

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

ASR1 TD7 : Un microprocesseur RISC 16 bits

LE PROBLEME DU PLUS COURT CHEMIN

SysFera. Benjamin Depardon

Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Chapitre 7. Récurrences

Transcription:

M2 - IAD Algorithmes sur les arbres et les graphes en bioinformatique Reconstruction des arbres phylogénétiques Quelles sont les relations génétiques entre espèces? Idée : comparer des caractères spécifiques des espèces, sous l hypothèse que des espèces similaires soient génétiquement proches. Cours 4: Algorithmes de reconstruction des arbres phylogénétiques Alessandra Carbone Université Pierre et Marie Curie A.Carbone - UPMC 1 Ancêtre le plus proche aux oiseaux et aux méduses Ancêtre le plus proche aux oiseaux, aux méduses et aux fougères A.Carbone - UPMC 2 Phylogénie moderne : utilise l information génétique, séquences d ADN et de protéines. Les relations entres espèces sont déduites de bloques très conservés dans l alignement de plusieurs séquences, une pour chaque espèce considérée. Phylogénie classique: caractères physiques comme taille, couleur, nombre de pattes de Darwin jusqu au début des années 60 A.Carbone - UPMC 3 A.Carbone - UPMC 4

Evolution et analyse de l ADN: la devinette du Panda Géant Pour presque 100 ans les scientifiques ont été incapable de comprendre a quelle famille les panda géants appartiennent. Panda géants ressemblent les ours mais ils ont des caractéristiques assez différent et typique des ratons laveurs, il n hibernent pas par exemple. En 1985, Steven O Brien et al. ont résolu ce problème de classification en utilisant les séquences d ADN et algorithmes. Il y a 40 ans: Emile Zuckerkandl et Linus Pauling ont proposé la reconstruction phylogénétique basée sur l ADN. Au départ, la possibilité de reconstruire les arbres phylogénétiques par l analyse d ADN a été discutée beaucoup. A nos jours, elle constitue l approche dominant pour comprendre A.Carbone - UPMC 5 l évolution. Out of Africa Hypothesis L origine africaine de tous les hommes modernes est indiquée dans les évidences génétiques: Dans les mêmes années, quand la classification du panda géant a été résolue, une reconstruction basée sur l ADN de l arbre phylogénétique de l homme a amené a l hypothèse (Out of Africa Hypothesis) que l ancêtre plus ancien de l homme a vécu en Afrique a peu près il y a 200,000 ans. L arbre phylogénétique a séparé un groupe africain d un groupe contenant toutes les 5 populations restantes.. http://www.mun.ca/biology/scarr/out_of_africa2.htm A.Carbone - UPMC 6 Arbres Phylogénétiques Comment sont-ils reconstruit ces arbres a partir des séquences d ADN? L approche d analyse a été basé sur l ADN mitochondriale de 182 personnes a été analysé. L ADN mitochondriale est particulièrement important parce que il est complètement copié de mère a enfant, sans recombinaison avec l ADN mitochondriale du père. Les feuilles représentent les espèces existantes Les noeuds internes représentent les ancêtres La racine représente l ancêtre le plus ancien du point de vu de l évolution. A.Carbone - UPMC 7 A.Carbone - UPMC 8

Arbres racinés et non racinés Distances dans l arbre Un arbre montre la proximité entre espèces. Il n a pas une racine pre-déterminée et il n induit pas de hiérarchie. Donc la distance entre nœuds est symétrique. Dans un arbre non-raciné, la position de la racine ( l ancêtre le plus vieux ) n est pas connue. Quand on veut donner une racine a un arbre, on ajoute un nouveau nœud qui jouera le rôle de la racine. On peut par exemple introduire une espèce qui est distante des autres espèces considérées et la racine proposée sera le prédécesseur directe de ce groupe. Les arcs peuvent avoir associés des poids qui reflèctent: Le nombre de mutations dans le chemin d évolution d une espèce vers l autre L estimation du temps d évolution d une espèce dans l autre Pour un arbre T, on calcule souvent d ij (T) la longueur du chemin entre les feuilles i et j d ij (T) distance dans l arbre entre i et j A.Carbone - UPMC 9 A.Carbone - UPMC 10 Distance dans l arbre: exemple j Pour reconstruire un arbre, on peut faire l hypothèse, qu il existe un horloge moléculaire qui gouverne l évolution des espèces et qui représente un rythme constant du processus évolutionnaire. Si cela était le cas, on aurait pu produire théoriquement un arbre phylogénétique qui préserve la distance et qui peut être représenté a l aide d un axe de temps, qui assigne a chaque nœud le moment quand il est paru dans l histoire de l évolution. Dans cet arbre parfait, la longueur de chaque arc serait calculée comme la différence de temps entre le nœud père et le nœud fils. i d 1,4 = 12 + 13 + 14 + 17 + 12 = 68 A.Carbone - UPMC 11 A.Carbone - UPMC 12

Matrice des distances D ij distance observée entre i et j Il y a deux types de données utilisées pour reconstruire les arbres phylogénétiques: Reconstruction basées sur les caractères: examiner chaque caractère séparément Etant données n espèces, nous pouvons calculer une matrice n x n des distances D ij. D ij peut être définie, par exemple, comme la distance d édition entre un gène dans l espèce i et l espèce j, où le gène d intérêt appartient aux n espèces. Reconstruction basées sur la distance: l entrée est une matrice de distances entre espèces Noter la difference avec d ij (T) distance dans l arbre entre i et j A.Carbone - UPMC 13 A.Carbone - UPMC 14 Matrices de distance adéquate Adéquation de la matrice de distance Etant données n espèces, on calcule la matrice n x n de distance D ij Pour visualiser les relations évolutives entre gènes, on utilisera un arbre que, a priori, on connaît pas, mais qui l on veut reconstruire. On a besoin d un algorithme pour construire un arbre qui correspond au mieux a la matrice de distance D ij Idéalement: adequate signifie D ij = d ij (T) Longueur du chemin dans un arbre (inconnu) T Distance d édition entre espèces (connue, il s agit de la distance observée) A.Carbone - UPMC 15 A.Carbone - UPMC 16

Reconstruction de l arbre à 3 feuilles Reconstruction de l arbre à 3 feuilles La reconstruction de l arbre pour toute matrice 3x3 est évidente. Nous avons 3 feuilles i, j, k et un noeud centrale c : d ic + d jc = D ij + d ic + d kc = D ik 2d ic + d jc + d kc = D ij + D ik Observe: d ic + d jc = D ij d ic + d kc = D ik d jc + d kc = D jk A.Carbone - UPMC 17 2d ic + D jk = D ij + D ik d ic = (D ij + D ik D jk )/2 De façon similaire, d jc = (D ij + D jk D ik )/2 d kc = (D ki + D kj D ij )/2 A.Carbone - UPMC 18 Arbre ayant > 3 feuilles Matrices de distance Un arbre avec n feuilles a 2n-3 arcs Cela signifie que rendre adéquat un arbre a une matrice de distance D demande la résolution d un système de C n 2 équations avec 2n-3 variables La matrice D est ADDITIVE s il existe un arbre T avec d ij (T) = D ij Cela n est pas toujours possible pour n > 3 NON-ADDITIVE sinon A.Carbone - UPMC 19 A.Carbone - UPMC 20

Problème de la reconstruction phylogénétique basée sur les distances Problème: Reconstruire un arbre phylogénétique a partir de la matrice des distances Entrée: matrice n x n des distances D ij Sortie: un arbre pondéré T avec n feuilles représentant D Usage des feuilles voisines pour la construction de l arbre Trouver des feuilles «voisines» i et j avec père k Effacer lignes et colonnes de i et j de la matrice Ajouter une nouvelle ligne et colonne correspondant a k, ou la distance entre k et toute autre feuille m peut être calculée comme suit : D km = (D im + D jm D ij )/2 Si D est additive, alors le problème a une solution et il existe un algorithme simple pour le résoudre. A.Carbone - UPMC 21 Comprimer i et j dans k, et itérer l algorithme sur le reste de l arbre A.Carbone - UPMC 22 Trouver les feuilles voisines Trouver les feuilles voisines Pour trouver les feuilles voisines on sélectionne simplement une paire de feuilles proches. Les feuilles proches (cad les feuilles i et j ayant D ij minimale) ne sont pas forcement des feuilles voisines : i et j sont voisines, mais (d ij = 13) > (d jk = 12) erroné Trouver une paire de feuilles voisines en utilisant seulement la matrice de distance est un problème non triviale! A.Carbone - UPMC 23 A.Carbone - UPMC 24