Introduction à la phylogénie*

Documents pareils
Programmation linéaire

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Continuité et dérivabilité d une fonction

Comparaison de fonctions Développements limités. Chapitre 10

Fonctions de plusieurs variables

Optimisation des fonctions de plusieurs variables

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

DOCM Solutions officielles = n 2 10.

Jean-Philippe Préaux

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chp. 4. Minimisation d une fonction d une variable

Résolution d équations non linéaires

Chapitre 5 : Flot maximal dans un graphe

La classification automatique de données quantitatives

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Plus courts chemins, programmation dynamique

3 Approximation de solutions d équations

Chapitre 6. Fonction réelle d une variable réelle

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

CCP PSI Mathématiques 1 : un corrigé

III- Raisonnement par récurrence

Image d un intervalle par une fonction continue

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

MABioVis. Bio-informatique et la

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

I. Polynômes de Tchebychev

Dualité dans les espaces de Lebesgue et mesures de Radon finies

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Rappels sur les suites - Algorithme

Programmation linéaire

L exclusion mutuelle distribuée

Programmation Linéaire - Cours 1

Problème 1 : applications du plan affine

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Texte Agrégation limitée par diffusion interne

MIS 102 Initiation à l Informatique

Cours d Analyse. Fonctions de plusieurs variables

Algorithmes de recherche

Optimisation Discrète

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Intégration et probabilités TD1 Espaces mesurés Corrigé

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

chapitre 4 Nombres de Catalan

Cours d analyse numérique SMI-S4


Limites finies en un point

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Théorème du point fixe - Théorème de l inversion locale

Contrainte de flot pour RCPSP avec temps de transfert

Architecture des ordinateurs TD1 - Portes logiques et premiers circuits

Pourquoi l apprentissage?

Chapitre 1 Régime transitoire dans les systèmes physiques

Algorithmes d'apprentissage

Leçon 01 Exercices d'entraînement

Théorie et codage de l information

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Suites numériques 3. 1 Convergence et limite d une suite

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Intégration et probabilités TD1 Espaces mesurés

Programmation par contraintes. Laurent Beaudou

La persistance des nombres

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

1 Complément sur la projection du nuage des individus

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Feuille d exercices 2 : Espaces probabilisés

Résolution de systèmes linéaires par des méthodes directes

Analyse en Composantes Principales

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

I. Ensemble de définition d'une fonction

2.4 Représentation graphique, tableau de Karnaugh

Chapitre 2 Le problème de l unicité des solutions

Resolution limit in community detection

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Les arbres binaires de recherche

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Chapitre 3. Les distributions à deux variables

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Analyse de la variance Comparaison de plusieurs moyennes

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Cours de Master Recherche

Taux d évolution moyen.

1 Définition et premières propriétés des congruences

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Transcription:

Introduction à la phylogénie* Tree of Life web project: http://tolweb.org/tree/phylogeny.html * Notes basées en partie sur les notes de cours de Nadia El-Mabrouk

* * * 1. Théorie de l évolution 2. Arbres de phylogénie * * Arbres enracinés et non enracinés La donnée du problème 3. Construction d arbres de phylogénie * * * * Présentation des méthodes Méthodes de distance: * * distances ultramétriques distances additives Méthodes de parcimonie: * * * PLAN phylogénie parfaite phylogénie parfaite généralisée phylogénie maximale Méthodes de maximum de vraisemblance 1

1. Théorie de l évolution Tous les organismes vivants dérivent d un ancêtre commun. La diversité est due à la spéciation i.e à la séparation d une espèce en deux espèces différentes. Idée de base: Les caractères sont transmis d une génération à l autre et, au cours de l évolution, ces caractères subissent une série de mutations Nous allons parler d arbres de phylogénie même si un des grands débat, en phylogénétique, est de savoir si l évolution peut être vu comme un arbre. Plusieurs aspects de l évolution moléculaires ne peuvent être représentés par un arbre. Ex. Transferts horizontaux. 2

Arbres racinés 2. Arbres de phylogénie ancêtre commun Les noeuds internes peuvent être étiquettés par les séquences les plus probables des ancêtres Taille: peut représenter le nombre de mutations ou le temps d évolution ancêtre commun ou point dans l histoire où les espèces ont divergé Espèces actuelles Noeud de degré > 3: Noeud non résolu. Ordre de speciation non déterminé 3

Noeud de degré > 3: Noeud non résolu. Ordre de speciation non déterminé 4

Différentes représentations d arbres enracinés: 1) Cladogram: indique simplement les relations d ancêtre entre les espèces Les espèces A et B ont un ancêtre commun plus récent que les espèces A et C 5

Différentes représentations d arbres enracinés: 2) Arbres additifs: la taille des branches indique, par exemple, le nombre de substitutions entre les deux séquences 6

Différentes représentations d arbres enracinés: 3) Arbres ultramétriques: Arbres additifs où les feuilles sont équidistantes de la racine. Hypothèse sous-jacente: horoge molécule i.e taux de mutation constant 7

Arbres enracinés versus arbres non enracinés: Arbres enracinés: Direction représentant le temps d évolution: plus un noeud est proche de la racine, plus il est vieux. Arbres non enracinés: Ne permet pas de déduire des relations de descendance Plusieurs méthodes de constructions d arbres de phylogénie génèrent des arbres non enracinés. Il faut ensuite trouver un outgroup pour enraciner l arbre. 8

La donnée du problème: Étant donné n espèces, calculer un arbre qui retrace l évolution de ces espèces. L information sur les espèces peut prendre deux formes différentes: 1) distances 2) caractères E 1... E j... E n t 1... t j... t n E 1 E 1.. E i d(e i,e j ) E i e(e i,t j ).. E n E n état du caractère t j pour l espèce E i 9

3. Construction d arbres de phylogénie Trois méthodes principales: 1) Méthodes de distance: - Entrée: ensemble de distances (ex: distance d édition) - Problème: Construire l arbre de phylogénie en accord avec cet ensemble de distances - Distances ultramétriques ou additives -> problèmes faciles à traiter - Distances générales -> heuristiques nous donne l arbre qui fournit la meilleure approximation 2) Méthodes de parsimonie: arbres qui explique l évolution des espèces par un nombre minimal de mutations. - Calcul du score d un arbre donné - Recherche, parmi tous les arbres, de l arbre de score minimal. Parcimonie maximale = nombre minimal de mutations 3) Méthodes de maximun de vraisemblance: Méthode probabiliste permettant de trouver la séquence de noeuds internes la plus probable 10

Méthodes de distance - n séquences; D(i,j) est la distance entre les deux séquences i et j - Algorithme de clustering UPGMA (Unweight Pair Group Method with Arithmetic Means): Procéder par regroupement des séquences les plus proches. À chaque étape, les deux regroupements les plus proches sont fusionnés. - d i, j : Distance entre deux regroupements C i et C j = moyenne des distances entre les paires de séquences entre les deux regroupements D(i,j) 11

12

Arbres et distances ultramétriques La construction d un arbre par UPGMA sous-entend un modèle d évolution faisant intervenir l hypothèse de l horloge moléculaire: taux de mutation constant UPGMA trouve LE bon arbre ssi il existe un arbre ultramétrique pour D Définition: Soit D une matrice symétrique n X n. Un arbre ultramétrique associé à D est un arbre A tel que: 1) L arbre A a n feuilles étiquettées par les lignes de la matrice D (les espèces) 2) Chaque noeud de A est étiquetté par une valeur D(i,j) et a au moins deux enfants 3) Sur tout chemin de la racine à une feuille, les étiquettes sont strictement décroissantes 4) L étiquette du plus petit ancêtre commun de i et j est D(i,j) 13

Arbres et distances ultramétriques (suite) Remarque: A a au plus n-1 noeuds internes. Donc, si la matrice D à plus de n-1 valeurs, il n existe pas d arbres ultramétriques pour D 14

Détection et construction d arbres ultramétriques Idée: d(i,j) d(i,k) = d(j,k) d(i,j) = d(i,k) d(j,k) d(i,j) = d(i,k) = d(j,k) i j k i j k i j k Définition: Une matrice symétrique D est ultramétrique si pour tout i,j et k max{ d(i,j), d(i,k), d(j,k) } n est pas unique. Théorème: Une matrice symétrique admet un arbre ultramétrique ssi elle est ultramétrique. 15

Détection et construction d arbres ultramétriques Théorème 2: Si D est une matrice ultramétrique, alors l arbre ultramétrique est unique Conséquence: Si D reflète la distance d évolution entre les espèces, alors on trouve nécessairement le vrai arbre Théorème 3: Si D est ultramétrique, alors l arbre ultramétrique peut être construit en O(n 2 ) 16

Comment obtenir des données ultramétriques - Distances étiquettant les noeuds des arbres ultramétriques supposés refléter le temps qui s est écoulé depuis la séparation des deux espèces - Théorie de l horloge moléculaire (1960): Pour une protéine donnée, le taux de mutations acceptées par intervalle de temps est constant. Ce taux de mutations varie selon les protéines - Avec cette théorie, si k mutations acceptés entre une protéine chez l espèce A et cette même protéine chez l espèce B, alors on peut estimer à k/2 le nombre de mutations survenues pour chaque espèces depuis la divergence. Cela permet d obtenir des données ultramétriques - Si nos données réelles ne sont pas ultramétriques une possibilité est de les modifier de façon minimale pour quelles le deviennent et construire l arbre par la suite 17

Arbres et distances additives - Matrice des distances D (n X n) additive: - symétrique - la diagonale ne contient que des 0 - toutes les autres entrées sont des nombres réels strictement positifs - Arbre additif : - contenant au moins n noeuds, en comptant les feuilles - chaque ligne de D (espèces) correspond à une feuille - les arcs sont étiquettés de sorte que pour chaque paire de feuille (i,j), le poids total du chemin de i à j est D(i,j) 18

Arbres et distances additives Matrice additive Arbre additive pour la matrice (a) Problème: Étant donnée une matrice additive D, trouver un arbre additif pour cette matrice ou déterminer qu un tel arbre n existe pas Distances additives: contrainte moins forte que les distances ultramétriques. Par contre, les données réelles sont très rarement additive. Un vaste domaine de recherche: comment effectuer la plus petite déviation possible pour que des distances deviennent additives. 19

Test d additivité des 4 points Arbre additif pour D: Distance entre deux feuilles quelconques de l arbre = somme des poids des arcs du chemin joignant ces deux feuilles Pour tout ensemble de 4 espèces i,j,k et l, deux des distances D(i,j)+D(k,l), D(i,k) +D(j,l) et D(i,l)+D(j,k) sont égales et supérieures à la troisième x s y t y x z z s t y x z z s t 20

Méthode de construction d un arbre additif Paire de feuilles voisines: Deux feuilles de l arbre ayant le même père - Choisir deux objets (espèces) garantis d être voisins dans un arbre additif - Supprimer i et j de la liste des objets et rajouter le noeud k correspondant au père commun de i et j. Distance de k à un autre objet quelconque (feuille) m: D(k,m) = 1/2 (D(i,m)+D(j,m)-D(i,j)) - De cette façon, le nombre d objets à placer est réduit de 1 à chaque étape. 21

Méthode de construction d un arbre additif (suite) Comment déterminer, à partir de D, deux feuilles qui sont nécessairement voisines dans l arbre additif pour D? Il ne suffit pas de choisir une paire d objets pour lesquels la distance est minimale. 22

23

Méthode de construction d un arbre additif Remarque: Pour une distance additive, il n existe pas un seul arbre additif Heuristique: Appliquer l algorithme plusieurs fois en modifiant l ordre des objets dans L, ce qui entrainera des choix différents de voisins. Trouver un consensus pour l ensemble des arbres obtenus Lorsque la distance n est pas additive, on peut quand même employer l algorithme de Neighbour-Joining, mais on a pas de garantie sur la qualité de l arbre obtenu. 24

Enraciner les arbres Contrairement à l algorithme UPGMA, Neighbour-Joining construit un arbre non enraciné. Pour raciner l arbre, il suffit d ajouter une espèce très éloignée des autres espèces considérées (outgroup) Une autre statégie est de considérer comme racine le milieu d un plus long chemin dans l arbre (Hypothèse de l horloge moléculaire). 25

Méthodes de parcimonie Entrée: Ensemble de traits (caractères, attributs) qu un objet peut posséder La distribution des traits dans les objets permet de déduire des relations d évolution Version simplifiée du problème: parfaite avec caractères binaires (présents ou absents) Soit M une matrice n X m de 0 et de 1, où n est le nombre d espèces et m le nombre de traits. Cette matrice possède un arbre phylogénétique si 1) T a n feuilles correspondant à chacune des espèces 2) Chaque caractère ou trait est l étiquette d une arête 3) Les étiquettes de la racine à la feuille i énumèrent tous les caractères présents dans l espèce i 26

parfaite Ici un arbre de phylogénie détermine des relations d évolution entre les espèces, en terme de branchement et non de temps. Ces relations sont basées sur les hypothèses suivantes: 1) La racine représente un ancêtre commun ne présentant aucun des m traits 2) Un caractère acquis n est jamais perdu. (C est pourquoi un trait étiquette un seul arc de l arbre) Exemple: Évolution des quadrilatère fermé aligné convexe symétrie 2D fermé aligné 1 0 1 0 1 0 1 1 convexe symétrie 0 1 0 0 27

parfaite (suite) Définition: Si M est une matrice booléenne n X m, pour toute colonne j, Θ j {1,...,n} est défini comme le caractère j {i M(i, j) = 1} i.e l ensemble des espèces ayant Théorème: M a un arbre de phylogénie parfaite ssi pour tout j, k on a Θ j Θ k = /0 Θ j Θ k ou ou Θ k Θ j 28

- Traits considérés parfaite (suite) 1) morphologiques (colonne vertébrale, aile...) 2) liés aux séquences d AA ou de nucléotides (présence ou non d un motif particulier) 3) comportementaux (marcher sur les articulations,...) - Par contre, la considération de traits morphologiques peut être problématique. Sous certaines conditions des traits similaires peuvent apparaître indépendamment. - Les traits comportementaux sont également problématiques. Par exemple, marcher sur les articulations est un trait commun aux chimpanzés et aux gorilles mais pas à l homme. Pourtant, l arbre maintenant admis pour l homme, le chimpanzé et le gorille est: http://www.nature.com/embor/journal/v3/n4/fig_tab/embor181_f3.html 29

parfaite généralisée - Le type de nucléotide ou d AA à une position donnée d un alignement constitue également un trait mais ce trait n est pas binaire. Dans le cas des nucléotides, 4 états possibles, dans le cas des acides aminés, 20. (Par contre, on peut se ramener à des états binaires dans le cas des nucléotides si on considère les purines et pyrimidines) - Ici, une phylogénie parfaite pour M est un arbre tel que - Chaque feuille représente une espèce - Chaque arc est étiquetté par une transition particulière de l état d un trait i.e par une triplet (t,x,y) indiquant que le caractère t change de l état x à y. - Tout chemin de la racine à une feuille p décrit exactement les états des traits pour p - Chaque transition (t,x,y) n apparaît qu une fois - Le problème: Étant donné une matrice M telle que chaque caractère peut avoir au plus r états, déterminer s il existe une phylogénie parfaite pour M et si oui, en construire une. 30

maximale Considérer l ensemble T de toutes les topologies d arbres possibles ayant les séquences comme étiquette des feuilles. Calculer un poids pour chaque arbre T de T Sélectionner un arbre de T de poids minimal Parcimonie maximale = nombre minimal de mutations 31

Algorithme de Fitch Étant donné un ensemble de séquences alignées, une topologie d arbre et une colonne j de l alignement, on veut trouver le nombre minimal de substitutions associées à cet arbre: 1) Ajouter une racine sur n importe quel arête 32

Algorithme de Fitch (suite) 2) Passage de bas en haut: {C,G,A} On traverse l arbre des feuilles à la racine et on assigne à chaque noeud interne n, un ensemble de nucléotides possibles N de la façon suivante: Soit u et v les fils de n et U, V les ensembles de nucléotides correpondant à ces noeuds alors N = { U V si U V = /0 {C,G} A {A,C} U V sinon 2) Passage de haut en bas: C L arbre est ensuite traversé de haut en bas et on assigne des nucléotides aux noeuds internes selon ces règles: - on assigne à la racine, un nucléotides x de son ensemble (n importe lequel) C A A - On assigne à un enfant v de parent u le nucléotide { x si x U n importe quel nuclotides dev sinon 33

Algorithme de Fitch (suite) C Donc, ici étant donné cette topologie d arbres et ces données d alignement, l algorithme de Fitch nous donne 3 mutations. L algorithme a une complexité linéaire en la taille de l arbre. C A A Le nombre de mutations ne dépend pas du choix du nucléotide que l on met à la racine dans la phase de haut en bas: A G C A A G A A 34

Énumération de tous les arbres possibles L identification de l arbre de parcimonie maximale requière le calcul du nombre minimal de mutations pour chaque topologie possible d arbres. Arbres binaires enracinés de n feuilles: n feuilles => n-1 noeuds internes => nombre total de noeuds et de feuilles = 2n - 1 => 2n - 2 arcs Arbres sans racines: 2n -2 noeuds + feuilles et 2n - 3 arcs. Étant donné un arbre sans racines pour n espèces, on obtient un arbre enraciné en ajoutant une racine au milieu d un des 2n - 3 arcs => Pour chaque arbre non enraciné, il y a 2n-3 arbres racinés. 35

Énumération de tous les arbres possibles Générer les 3 arbres non enracinés pour 4 espèces: A Pour chacun de ces arbres, on a 5 arbres avec racines donc: 3 * 5 = 15 arbres racinés pour n= 4 espèces 36

Énumération de tous les arbres possibles Générer les 15 arbres non enracinés pour 5 espèces: On fait la même chose pour les 2 autres arbres non enracinés pour 4 espèces Pour chacun de ces arbres, on a 7 arbres avec racines donc: (3*5)*7= 105 arbres racinés pour n= 5 espèces 37

Énumération de tous les arbres possibles Par récurrence, on a 3*5*...*(2n-5) arbres sans racine de n feuilles Donc, 3*5*...*(2n-5)*(2n-3) arbres enracinés de n feuilles n = 10 => 2 027 025 arbres non enracinés 34 495 425 arbres racinés n = 20 => environ enracinés et 8.2 10 21 2.2 10 20 arbres racinés arbres non 38

Stratégie branch and bound * Comme on vient de la voir, le nombre de topologies d arbres croît très rapidement par rapport au nombre d espèces considérés. Branch and bound est une statégie exacte permettant de trouver l arbre de phylogénie maximal pour 20 espèces ou plus. Méthode: 1) Obtenir une borne supérieure du nombres de mutations (par Neighbor Joingning, par exemple) 2) Construire toutes les topologies d arbres en ajoutant les espèces une à une 3) Si, pour une topologie donnée, le nombre de mutations est plus grand que la borne supérieure, alors arrêter d ajouter des espèces à cette topologie * Hendy, M.D. et Peeny, D., Branch an bound algorithms to determine minimal evolutionary trees, Mathematical Biosciences, 60, pp.133-142, 1982. 39

Stratégie branch and bound 40

Inconsistance du modèle de parcimonie Consistance d une méthode d estimation: Capacité de converger vers une bonne valeur (ici un vrai arbre de phylogénie) avec l augmentation des données Supposons que nous savons que l arbre de phylogénie de 4 séquences a,b,c et d est le suivant: Le taux d évolution de c et d est beaucoup plus élevé que le taux d évolution de a et b Ici, les espèces a et c sont d une côté et les espèces b et d de l autre pourtant le nombre de mutations entre a et b est beaucoup moins élevé que le nombre entre a et c... Ce phénomène est appelé l attraction des longues banches 41

Maximum de vraisemblance 42