Classification phylogénétique du vivant Classification cladistique vs phénétique
phénétique Quantification des similitudes Ressemblance générale chiffrée => distance Particulièrement adapté aux données moléculaires ou chaque position dans la séquence correspond à un caractère
Cinq étapes de l analyse phylogénétique 1. Choix du jeu de données Une bonne connaissance des séquences que l on analyse S assurer de la validité du jeu de donnée (qualité des séquences et cohérence du JDD) 2. Alignement des séquences Obtenir un bon alignement Tester différents méthodes et revenir à la main sur les résultats 3. Détermination du modèle de substitution 4. Construction des arbres 5. Evaluation des arbres
Les éléments d une phylogénie Les caractères Le jeu de données Les banques Les alignements Les arbres
Description et codage des états Présence absence : +/-; 0/1; a/b Etats multiples : Les 20 acides aminés Les 4 nucléotides A,T,C,G Nb de répétitions en tandem (microsatellites) Morphologie (a, b, c, d,..)
Morphologie vs. Données moléculaires Les vautours du vieux et du nouveau monde semblent être étroitement liés sur la base de leur morphologie Les données moléculaires indiquent que les vautours du vieux monde sont liées à des oiseaux de proie (faucons, éperviers, etc), tandis que les vautours du Nouveau Monde sont plus étroitement liés à des cigognes C est un exemple de convergence évolutive
Le jeu de données Au début les modes de classifications des espèces étaient: Les comparaisons morphologiques Les comparaisons comportementales Les répartitions géographiques Aujourd hui les phylogénies sont obtenues à partir: des séquences moléculaires (phylogénie moléculaire) : ADN, ARN, Protéines, Codons des caractères discrets (présence, absence, 0, 1) des fréquences des gènes des traits quantitatifs des sites de restriction, RFLP des microsatellites, SNP
Données moléculaires Les séquences d ADN présentent beaucoup d avantages face aux caractères de taxonomie morphologiques: L état des caractères peut être déterminé sans ambiguïté Un grand nombre de caractère peuvent être pris en compte pour chaque individu Inconvénients: Peu d états donc possibilité de mutations silencieuses (homoplasie) Arbre de gène vs Arbre de génome (cad arbre de espèces) Alignements de qualité difficile à obtenir
Choix du marqueur il faut choisir le marqueur moléculaire approprié au groupe taxonomique étudié. Critères du choix d'un marqueur: universalité structure conservée absence de transfert génétique taux d évolution approprié absence de biais sélectif Quelques exemples: phylogénie de bactéries (16S rdna) phylogénie d eucaryotes (18S rdna, actine, EF1, RPB1 (RNA polymerase)) phylogénie de plantes (rbcl(ribulose carboxylase),18s rdna) Phylogénie d animaux niveau phylum, classe, ordre : (18S rdna, génome mt) niveau famille : (RAG2 (recombination activating gene 2), 12S, 16S mt) niveau genre : (ITS, protéines mt) niveau intra-spécifique : (D-Loop, introns)
Eviter les séquences incomplètes Eviter les xénologues (transfert latéraux) Eviter les séquences recombinantes (2 ancêtres) Eviter les grandes familles complexes (répétitions et nombres de domaines importants) Ajouter un groupe externe (outgroup) ADN ou protéines? Quand cela est possible travailler préférentiellement avec des alignement de protéines en particulier lorsque les séquences d ADN diffèrent de plus 70%. Si les séquences protéiques sont trop proches revenir à l ADN.
Banques de données
Alignement L alignement est une étape cruciale qui permet de choisir les sites qui seront utilisés dans les analyses phylogénétiques. But : S assurer que chacun des sites choisis est homologue Pour s assurer de l homologie d un site: la structure primaire des séquences (ordre des nucléotides) la structure secondaire des séquences (gènes ribosomiques) la séquence en acides aminés (gènes codant pour des protéines)
Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. Mutations : Substitution (mismatch) Insertion Délétion Insertions ou délétions : indels(gap)
Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
Exemple: identité = 1 mismatch= 0 gap = -1 Score = 10-4 = 6
Transition vs transversion Transition: A <-> G T<-> C Transversions : autres substitutions p(transition) > p(transversion)
Code génétique Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation Asp(GAC, GAU) Cys(UGC, UGU) : 2 mutations Asp(GAC, GAU) Trp(UGG) : 3 mutations Propriétés physico-chimiques des acidesaminés (acidité, hydrophobicité, encombrement stérique, etc.)
Les arbres Les méthodes cladistiques et phénétique construisent un arbre (dendrogramme) Cladogramme - un dendrogramme exprimant les relations phylogénétiques entre taxa et construit à partir de l'analyse cladistique; phénogramme- un dendrogramme obtenu par méthodes de distance où les relations entre taxa expriment des degrés de similitude globale; phylogramme- un dendrogramme dont la longueur des branches est proportionnelle au nombre de changements évolutifs
Il existe 3 approches : L'approche cladistique cherche en particulier à déterminer les caractères propres à une branche, qui «signent» un apparentement. L'approche phénétique, une classification basée uniquement sur des mesures de distance entre taxons (évaluées par exemple en comptant les différences de séquences d'adn) sans chercher à faire une interprétation phylogénétique. L approche probabiliste qui construit des arbres phylogénétiques en utilisant des modèles d évolution des caractères (le plus souvent moléculaires, mais pas obligatoirement).
Phénétique vs cladistique L'approche phénétique (taxonomie numérique) se veut complètement objective. C'est une approche très quantitative dans laquelle tous les traits (qu'ils soient homologues ou non) sont traités également. Cette méthode se révèle peu pertinente lorsqu'on l'applique aux caractères morphologiques en raison des analogies : convergence évolutives. Elle s applique préférentiellement sur des caractères moléculaires où le nombre de caractères pris en compte est important La cladistique hiérarchise les caractères comparés. Ne sont en fait regroupés dans un même taxon que les êtres vivants qui partagent des caractères homologues: partage d une ascendance commune. Les homologies sont en fait vues comme des innovations évolutives partagées : synapomorphies
Méthodologie
Choix de la méthode d analyse phylogénétique
Méthode de maximum de parcimonie Hypothèses de base Les séquences en présence ont évolué à partir d'une séquence ancestrale commune grâce à un processus de mutation-sélection. Les différents sites (site=position occupée par un acide aminé ou une base) de la séquence évoluent indépendamment les uns des autres : la séquence peut être considérée comme une suite de caractères non ordonnés. Les lignées se différencient les unes des autres d'une façon autonome. La vitesse d'évolution est lente et constante au cours du temps
Cette méthode : ne prend en considération que les sites informatifs. ne fait pas de corrections pour les substitutions multiples. ne donne aucune information sur la longueur des branches. est connue pour être très sensible au biais des codons Méthode Reconstruire les événements évolutifs pour une phylogénie donnée Chercher parmi toutes les phylogénies possibles celle qui minimise le nombre d événements évolutifs
homoplasie Homoplasie = se dit de sites présentant des états moléculaires identiques résultant d événements évolutifs différents, tel que des évènements de convergence ou de réversion => La présence d homoplasie conduit à sousestimer le nombre total de mutations s étant produites au cours du temps
Tester les arbres Te s t e r l e s a r b r e s => tester la robustesse des nœuds => évaluer le rapport entre homoplasie et homologie Calcul de l indice de cohérence
Pb : il faut tester tous les arbres et les évalués un par un Le nombre d arbre augmente de manière exponentielle lorsque l on ajoute des taxons 10 taxons => 2 millions d arbres..
Méthode recherche arbre plus parcimonieux Exhaustive on obtient un score pour chaque arbre possible. On est sûr de trouver le meilleur arbre. Pratique seulement pour des petits jeux de données (<10 taxa). Heuristique on utilise des algorithmes pour parcourir l ensemble de l espace des arbres mais pas chaque arbre Stochastique recherche aléatoire dans l espace des arbres. Algorithmes comme le simulated annealing ou les algorithmes génetiques
Approche heuristique Principe : Partir d un arbre initial Petits réarrangements de branches successifs => Exploration des arbres voisins Si un des voisins est «meilleur» on le conserve On répète cette opération jusqu à ce qu on trouve un arbre pour lequel aucun réarrangement ne donne de meilleur arbre
Distances évolutives La notion de distance découle naturellement de celle de similitude : Plus la similitude entre deux séquences est forte, plus la distance entre elles δ est faible Elles reflètent la quantité d évolution survenue pendant un temps Elles ne sont pas une simple fonction de temps ex: deux séquences qui sont issues d un groupe frère dans une phylogénie sont séparées par le même intervalle de temps t, mais peuvent avoir subit une quantité d évolution différente
De façon basique, les séquences d ADN ne sont pas très informatives sur l histoire évolutive. Pour chaque site, le nombre maximal de différences est 1. Il existe seulement 4 états. Donc, si il y a plus d une substitution, nous perdons la substitution passée. Les substitutions multiples cachent l histoire évolutive entre les séquences.
Distances évolutives
Méthodes de distance Principe La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés. Données initiales Matrice de distances entre séquences prises deux à deux Compression de l'information en une seule valeur (=distance) : tous les sites sont traités de manière équivalente (perte d'information). Hypothèses de base Les distances ont été mesurées indépendamment. Les distances s'additionnent. Méthode Ces programmes procèdent par regroupement successifs (clusterisation),depuis la paire des séquences les plus proches aux plus éloignées. Résultat Un seul arbre sans racine Avantages-Inconvénients Ces méthodes sont rapides et donnent de bons résultats pour des séquences proches. Mais les sites sont traités de manière équivalente : ces méthodes ne sont pas applicables aux séquences très divergentes
Méthode UPGMA UPGMA (Unweight Pair Group Method with Arithmetic mean) C est un algorithme itératif de clustering, à chaque étape on crée un nouveau cluster regroupant deux clusters proches et on rajoute un nœud à l arbre. Les branches évoluent à la même vitesse (taux de mutation identiques sur les différentes branches (lignée)) => hypothèse d une horloge moléculaire
Ex de matrice
=Connecter phoque et otarie dans l arbre => D phoque-noeud= D otarie-nœud = D phoque-otarie/2=24/2 =12
Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant Dij,k= ni x Dik/ (ni+ nj) + nj x Djk/ (ni+ nj) Calcul de la distance entre le nouveau groupe phoque-otarie et tous les autres groupes Pour le chien : (50x1 + 48x1)/(1+1) = 49
Étape similiaire pour proposer un nouveau regroupement
BILAN UPGMA Méthode extrêmement simple de reconstruire des arbres phylogénétiques Est très critiquée dans la littérature en phylogénie à cause de l hypothèse de l égalité des taux d évolution entre les lignées. N est presque plus utilisée Peut être réaliste si on étudie des espèces très proches Donne des résultats faux si les distances de la matrice n obéissent pas au critère d horloge moléculaire
Méthode NJ NEIGHBOR-JOINING (Saitou et Nei, 1987 ) Cette méthode tente de corriger la méthode UPGMA afin d'autoriser un taux de mutation différent sur les branches Pour cela, la matrice de distances est corrigée afin de prendre en compte la divergence moyenne de chacune des séquences avec les autres.
Méthode maximum de vraissemblance
Méthode maximum de vraissemblance Idée de base Introduit par Edwards et Cavalli-Sforza (1964) pour des données de fréquences de gènes Application à des données moléculaires par Neyman (1971) Élargissement par Kashyap et Subas (1974) et Felsenstein (1981) Étant donné un modèle d évolution, on peut estimer une phylogénie avec des méthodes statistiques comme le maximum de vraisemblance (ou des méthodes bayesiennes). La vraisemblance d'un arbre estime la probabilité d observer des données (séquences + modèle de l'évolution) selon l'hypothèse qu'il véhicule (topologie + longueurs des branches). On choisit l arbre qui maximise la vraisemblance (qui a la plus forte probabilité d avoir conduit aux données
Intérêts des différentes méthodes Distance Méthode très rapide Correction des distances possibles selon les modèles d évolution Avec corrections peut être proche de la performance de MV Parcimonie Utilisée avec données morphologiques et fossiles Principe plus simple et critère à fondement biologique Peut converger avec MV si les données ne sont pas trop divergentes Maximum de vraisemblance Méthode flexible, robuste et consistante Tient compte de la complexité du processus évolutif Tient compte de la longueur des branches pour estimer la vraisemblance
Distance Sous estime les substitutions et la longueur des branches Problème d attraction des branches longues et courtes Perte d information dans les distances Parcimonie Sous estime les substitutions et la longueur des branches Pas basée sur un modèle d évolution Problème d attraction des branches longues et courtes Utilise seulement les sites informatifs Très affectée par les convergences et réversions des caractères Maximum de vraisemblance Méthode coûteuse (lente) Dépendant du bon choix de modèle d évolution Peut tomber dans des régions de maxima locaux