Classification phylogénétique du vivant. Classification cladistique vs phénétique

Documents pareils
MABioVis. Bio-informatique et la

CHAPITRE 3 LA SYNTHESE DES PROTEINES

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Gènes Diffusion - EPIC 2010

Génétique et génomique Pierre Martin

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Identification de nouveaux membres dans des familles d'interleukines

Big data et sciences du Vivant L'exemple du séquençage haut débit

Jean-Philippe Préaux

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Analyse de la variance Comparaison de plusieurs moyennes

Analyse des données de séquençage massif par des méthodes phylogénétiques

23. Interprétation clinique des mesures de l effet traitement

La Classification des espèces

Document d orientation sur les allégations issues d essais de non-infériorité

Ebauche Rapport finale

Raisonnement probabiliste

L apprentissage automatique

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Introduction au Data-Mining

La classification automatique de données quantitatives

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Conférence technique internationale de la FAO

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Séquence 2. L expression du patrimoine génétique. Sommaire

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

UE6 - Cycle de vie du médicament : Conception rationnelle


Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Modélisation multi-agents - Agents réactifs

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

1 les caractères des êtres humains.

VI. Tests non paramétriques sur un échantillon

Bases moléculaires des mutations Marc Jeanpierre

Structure quantique cohérente et incohérente de l eau liquide

Résolution d équations non linéaires

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Les OGM. 5 décembre Nicole Mounier

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

INF6304 Interfaces Intelligentes

Base de données bibliographiques Pubmed-Medline

Les algorithmes de fouille de données

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Réseau sur. Médicaments. l Innocuité et l Efficacité des. Document d orientation pour la présentation de requêtes au RIEM

Complexité et auto-organisation chez les insectes sociaux. Complexité et auto-organisation chez les insectes sociaux

CONSTRUIRE UNE QUESTION ET ELABORER UN QUESTIONNAIRE?

VI- Expression du génome

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Analyse dialectométrique des parlers berbères de Kabylie

Continuité et dérivabilité d une fonction

Cours 3 : Python, les conditions

L axe 5 du Cancéropole Nord Ouest

Chapitre 7. Récurrences

Introduction des. comptes d épargne libre d impôt

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Génomique Comparative et intégrative

Décrypter le code génétique des entreprises industrielles les plus performantes. Juillet 2014

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Les débuts de la génétique

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Big Data et Graphes : Quelques pistes de recherche

«Cours Statistique et logiciel R»

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

WEBINAIRE SUR LE SUIVI DE TENDANCES

Mensuration officielle Plan de conservation et d archivage de données et de documents (PCA)

Gestion de projets et de portefeuilles pour l entreprise innovante

SysFera. Benjamin Depardon

Modélisation du comportement habituel de la personne en smarthome

Asynchronisme : Cadres continu et discret

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Univers Vivant Révision. Notions STE

Big Data et Graphes : Quelques pistes de recherche

Programmation linéaire

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Limitations of the Playstation 3 for High Performance Cluster Computing

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Classer le vivant. Module de formation pour les professeurs des écoles

Plus courts chemins, programmation dynamique

Arbres binaires de décision

Algorithmes de recherche

Evaluation du LIDAR et de solutions innovantes pour la chaîne d approvisionnement du bois : les résultats du projet européen FlexWood

Transcription:

Classification phylogénétique du vivant Classification cladistique vs phénétique

phénétique Quantification des similitudes Ressemblance générale chiffrée => distance Particulièrement adapté aux données moléculaires ou chaque position dans la séquence correspond à un caractère

Cinq étapes de l analyse phylogénétique 1. Choix du jeu de données Une bonne connaissance des séquences que l on analyse S assurer de la validité du jeu de donnée (qualité des séquences et cohérence du JDD) 2. Alignement des séquences Obtenir un bon alignement Tester différents méthodes et revenir à la main sur les résultats 3. Détermination du modèle de substitution 4. Construction des arbres 5. Evaluation des arbres

Les éléments d une phylogénie Les caractères Le jeu de données Les banques Les alignements Les arbres

Description et codage des états Présence absence : +/-; 0/1; a/b Etats multiples : Les 20 acides aminés Les 4 nucléotides A,T,C,G Nb de répétitions en tandem (microsatellites) Morphologie (a, b, c, d,..)

Morphologie vs. Données moléculaires Les vautours du vieux et du nouveau monde semblent être étroitement liés sur la base de leur morphologie Les données moléculaires indiquent que les vautours du vieux monde sont liées à des oiseaux de proie (faucons, éperviers, etc), tandis que les vautours du Nouveau Monde sont plus étroitement liés à des cigognes C est un exemple de convergence évolutive

Le jeu de données Au début les modes de classifications des espèces étaient: Les comparaisons morphologiques Les comparaisons comportementales Les répartitions géographiques Aujourd hui les phylogénies sont obtenues à partir: des séquences moléculaires (phylogénie moléculaire) : ADN, ARN, Protéines, Codons des caractères discrets (présence, absence, 0, 1) des fréquences des gènes des traits quantitatifs des sites de restriction, RFLP des microsatellites, SNP

Données moléculaires Les séquences d ADN présentent beaucoup d avantages face aux caractères de taxonomie morphologiques: L état des caractères peut être déterminé sans ambiguïté Un grand nombre de caractère peuvent être pris en compte pour chaque individu Inconvénients: Peu d états donc possibilité de mutations silencieuses (homoplasie) Arbre de gène vs Arbre de génome (cad arbre de espèces) Alignements de qualité difficile à obtenir

Choix du marqueur il faut choisir le marqueur moléculaire approprié au groupe taxonomique étudié. Critères du choix d'un marqueur: universalité structure conservée absence de transfert génétique taux d évolution approprié absence de biais sélectif Quelques exemples: phylogénie de bactéries (16S rdna) phylogénie d eucaryotes (18S rdna, actine, EF1, RPB1 (RNA polymerase)) phylogénie de plantes (rbcl(ribulose carboxylase),18s rdna) Phylogénie d animaux niveau phylum, classe, ordre : (18S rdna, génome mt) niveau famille : (RAG2 (recombination activating gene 2), 12S, 16S mt) niveau genre : (ITS, protéines mt) niveau intra-spécifique : (D-Loop, introns)

Eviter les séquences incomplètes Eviter les xénologues (transfert latéraux) Eviter les séquences recombinantes (2 ancêtres) Eviter les grandes familles complexes (répétitions et nombres de domaines importants) Ajouter un groupe externe (outgroup) ADN ou protéines? Quand cela est possible travailler préférentiellement avec des alignement de protéines en particulier lorsque les séquences d ADN diffèrent de plus 70%. Si les séquences protéiques sont trop proches revenir à l ADN.

Banques de données

Alignement L alignement est une étape cruciale qui permet de choisir les sites qui seront utilisés dans les analyses phylogénétiques. But : S assurer que chacun des sites choisis est homologue Pour s assurer de l homologie d un site: la structure primaire des séquences (ordre des nucléotides) la structure secondaire des séquences (gènes ribosomiques) la séquence en acides aminés (gènes codant pour des protéines)

Les résidus (nucléotides, acides-aminés) sont superposés de façon à maximiser la similarité entre les séquences. Mutations : Substitution (mismatch) Insertion Délétion Insertions ou délétions : indels(gap)

Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable

Exemple: identité = 1 mismatch= 0 gap = -1 Score = 10-4 = 6

Transition vs transversion Transition: A <-> G T<-> C Transversions : autres substitutions p(transition) > p(transversion)

Code génétique Asp (GAC, GAU) Tyr (UAC, UAU) : 1 mutation Asp(GAC, GAU) Cys(UGC, UGU) : 2 mutations Asp(GAC, GAU) Trp(UGG) : 3 mutations Propriétés physico-chimiques des acidesaminés (acidité, hydrophobicité, encombrement stérique, etc.)

Les arbres Les méthodes cladistiques et phénétique construisent un arbre (dendrogramme) Cladogramme - un dendrogramme exprimant les relations phylogénétiques entre taxa et construit à partir de l'analyse cladistique; phénogramme- un dendrogramme obtenu par méthodes de distance où les relations entre taxa expriment des degrés de similitude globale; phylogramme- un dendrogramme dont la longueur des branches est proportionnelle au nombre de changements évolutifs

Il existe 3 approches : L'approche cladistique cherche en particulier à déterminer les caractères propres à une branche, qui «signent» un apparentement. L'approche phénétique, une classification basée uniquement sur des mesures de distance entre taxons (évaluées par exemple en comptant les différences de séquences d'adn) sans chercher à faire une interprétation phylogénétique. L approche probabiliste qui construit des arbres phylogénétiques en utilisant des modèles d évolution des caractères (le plus souvent moléculaires, mais pas obligatoirement).

Phénétique vs cladistique L'approche phénétique (taxonomie numérique) se veut complètement objective. C'est une approche très quantitative dans laquelle tous les traits (qu'ils soient homologues ou non) sont traités également. Cette méthode se révèle peu pertinente lorsqu'on l'applique aux caractères morphologiques en raison des analogies : convergence évolutives. Elle s applique préférentiellement sur des caractères moléculaires où le nombre de caractères pris en compte est important La cladistique hiérarchise les caractères comparés. Ne sont en fait regroupés dans un même taxon que les êtres vivants qui partagent des caractères homologues: partage d une ascendance commune. Les homologies sont en fait vues comme des innovations évolutives partagées : synapomorphies

Méthodologie

Choix de la méthode d analyse phylogénétique

Méthode de maximum de parcimonie Hypothèses de base Les séquences en présence ont évolué à partir d'une séquence ancestrale commune grâce à un processus de mutation-sélection. Les différents sites (site=position occupée par un acide aminé ou une base) de la séquence évoluent indépendamment les uns des autres : la séquence peut être considérée comme une suite de caractères non ordonnés. Les lignées se différencient les unes des autres d'une façon autonome. La vitesse d'évolution est lente et constante au cours du temps

Cette méthode : ne prend en considération que les sites informatifs. ne fait pas de corrections pour les substitutions multiples. ne donne aucune information sur la longueur des branches. est connue pour être très sensible au biais des codons Méthode Reconstruire les événements évolutifs pour une phylogénie donnée Chercher parmi toutes les phylogénies possibles celle qui minimise le nombre d événements évolutifs

homoplasie Homoplasie = se dit de sites présentant des états moléculaires identiques résultant d événements évolutifs différents, tel que des évènements de convergence ou de réversion => La présence d homoplasie conduit à sousestimer le nombre total de mutations s étant produites au cours du temps

Tester les arbres Te s t e r l e s a r b r e s => tester la robustesse des nœuds => évaluer le rapport entre homoplasie et homologie Calcul de l indice de cohérence

Pb : il faut tester tous les arbres et les évalués un par un Le nombre d arbre augmente de manière exponentielle lorsque l on ajoute des taxons 10 taxons => 2 millions d arbres..

Méthode recherche arbre plus parcimonieux Exhaustive on obtient un score pour chaque arbre possible. On est sûr de trouver le meilleur arbre. Pratique seulement pour des petits jeux de données (<10 taxa). Heuristique on utilise des algorithmes pour parcourir l ensemble de l espace des arbres mais pas chaque arbre Stochastique recherche aléatoire dans l espace des arbres. Algorithmes comme le simulated annealing ou les algorithmes génetiques

Approche heuristique Principe : Partir d un arbre initial Petits réarrangements de branches successifs => Exploration des arbres voisins Si un des voisins est «meilleur» on le conserve On répète cette opération jusqu à ce qu on trouve un arbre pour lequel aucun réarrangement ne donne de meilleur arbre

Distances évolutives La notion de distance découle naturellement de celle de similitude : Plus la similitude entre deux séquences est forte, plus la distance entre elles δ est faible Elles reflètent la quantité d évolution survenue pendant un temps Elles ne sont pas une simple fonction de temps ex: deux séquences qui sont issues d un groupe frère dans une phylogénie sont séparées par le même intervalle de temps t, mais peuvent avoir subit une quantité d évolution différente

De façon basique, les séquences d ADN ne sont pas très informatives sur l histoire évolutive. Pour chaque site, le nombre maximal de différences est 1. Il existe seulement 4 états. Donc, si il y a plus d une substitution, nous perdons la substitution passée. Les substitutions multiples cachent l histoire évolutive entre les séquences.

Distances évolutives

Méthodes de distance Principe La configuration de l'arbre traduit avant tout le degré de similarité, sans nécessairement tenter de refléter l'évolution moléculaire sous-jacente (l'histoire) aux phénotypes observés. Données initiales Matrice de distances entre séquences prises deux à deux Compression de l'information en une seule valeur (=distance) : tous les sites sont traités de manière équivalente (perte d'information). Hypothèses de base Les distances ont été mesurées indépendamment. Les distances s'additionnent. Méthode Ces programmes procèdent par regroupement successifs (clusterisation),depuis la paire des séquences les plus proches aux plus éloignées. Résultat Un seul arbre sans racine Avantages-Inconvénients Ces méthodes sont rapides et donnent de bons résultats pour des séquences proches. Mais les sites sont traités de manière équivalente : ces méthodes ne sont pas applicables aux séquences très divergentes

Méthode UPGMA UPGMA (Unweight Pair Group Method with Arithmetic mean) C est un algorithme itératif de clustering, à chaque étape on crée un nouveau cluster regroupant deux clusters proches et on rajoute un nœud à l arbre. Les branches évoluent à la même vitesse (taux de mutation identiques sur les différentes branches (lignée)) => hypothèse d une horloge moléculaire

Ex de matrice

=Connecter phoque et otarie dans l arbre => D phoque-noeud= D otarie-nœud = D phoque-otarie/2=24/2 =12

Calculer la distance entre le nouveau groupe (ij) et tous les autres groupes en utilisant Dij,k= ni x Dik/ (ni+ nj) + nj x Djk/ (ni+ nj) Calcul de la distance entre le nouveau groupe phoque-otarie et tous les autres groupes Pour le chien : (50x1 + 48x1)/(1+1) = 49

Étape similiaire pour proposer un nouveau regroupement

BILAN UPGMA Méthode extrêmement simple de reconstruire des arbres phylogénétiques Est très critiquée dans la littérature en phylogénie à cause de l hypothèse de l égalité des taux d évolution entre les lignées. N est presque plus utilisée Peut être réaliste si on étudie des espèces très proches Donne des résultats faux si les distances de la matrice n obéissent pas au critère d horloge moléculaire

Méthode NJ NEIGHBOR-JOINING (Saitou et Nei, 1987 ) Cette méthode tente de corriger la méthode UPGMA afin d'autoriser un taux de mutation différent sur les branches Pour cela, la matrice de distances est corrigée afin de prendre en compte la divergence moyenne de chacune des séquences avec les autres.

Méthode maximum de vraissemblance

Méthode maximum de vraissemblance Idée de base Introduit par Edwards et Cavalli-Sforza (1964) pour des données de fréquences de gènes Application à des données moléculaires par Neyman (1971) Élargissement par Kashyap et Subas (1974) et Felsenstein (1981) Étant donné un modèle d évolution, on peut estimer une phylogénie avec des méthodes statistiques comme le maximum de vraisemblance (ou des méthodes bayesiennes). La vraisemblance d'un arbre estime la probabilité d observer des données (séquences + modèle de l'évolution) selon l'hypothèse qu'il véhicule (topologie + longueurs des branches). On choisit l arbre qui maximise la vraisemblance (qui a la plus forte probabilité d avoir conduit aux données

Intérêts des différentes méthodes Distance Méthode très rapide Correction des distances possibles selon les modèles d évolution Avec corrections peut être proche de la performance de MV Parcimonie Utilisée avec données morphologiques et fossiles Principe plus simple et critère à fondement biologique Peut converger avec MV si les données ne sont pas trop divergentes Maximum de vraisemblance Méthode flexible, robuste et consistante Tient compte de la complexité du processus évolutif Tient compte de la longueur des branches pour estimer la vraisemblance

Distance Sous estime les substitutions et la longueur des branches Problème d attraction des branches longues et courtes Perte d information dans les distances Parcimonie Sous estime les substitutions et la longueur des branches Pas basée sur un modèle d évolution Problème d attraction des branches longues et courtes Utilise seulement les sites informatifs Très affectée par les convergences et réversions des caractères Maximum de vraisemblance Méthode coûteuse (lente) Dépendant du bon choix de modèle d évolution Peut tomber dans des régions de maxima locaux