Comparaison et! Alignement! de séquences

Dimension: px
Commencer à balayer dès la page:

Download "Comparaison et! Alignement! de séquences"

Transcription

1 Comparaison et! Alignement! de séquences Frédérique Barloy-Hubler CNRS-IGDR Rennes Responsable PF Amadeus Annotation des gènes et des génomes Biosit -UMS 3480

2 Un petit jeu pour commencer

3 Pourquoi comparer deux objets? C est quoi?

4 Pourquoi comparer deux objets? C est quoi? C est un fruit, une pomme, une granny smith Comment je le sais?

5 Pourquoi comparer deux objets? C est quoi? C est un fruit, une pomme, une granny smith Comment je le sais? Taille, forme, couleur

6 Pourquoi comparer deux objets? C est quoi?

7 Pourquoi comparer deux objets? C est quoi? Je ne sais pas mais

8 Pourquoi comparer deux objets? C est quoi? Cela ressemble à : citron mure-framboise litchi

9 ALIGNEMENT de SEQUENCE 2 à 2 DEFINITION ALIGNEMENT MULTIPLE

10 Pourquoi comparer deux objets? Pour «nommer» un objet, le schéma classique est : -> OBSERVATION, DESCRIPTION -> COMPARAISON -> TRI, CLASSEMENT, RANGEMENT La comparaison est le pont indispensable entre l'observation et la classification.

11 Les limites de la comparaison Comparer ce qui est comparable??

12 Les limites de la comparaison La base de connaissances est incomplète?

13 Les limites de la comparaison Analyser les résultats La comparaison me dit : = Différences possibles (localisation, environnement, autres critères )

14 Comparer deux séquences?

15 Comparer deux séquences? Comparer de séquences 2 à 2 revient à comparer des chaines de caractères (formant ou non des mots)

16 Comparer deux séquences? Comparer de séquences 2 à 2 revient à comparer des chaines de caractères (formant ou non des mots) Les questions sont : - Est ce que ces 2 chaines de caractère ont un lien? - Est ce que ces 2 chaines de caractère ont le même sens? - Exemple POIRE et FOIRE sont des chaines de caractère similaires mais elles n ont pas le même sens

17 Pourquoi comparer deux séquences? Les séquences biologiques qui présentent de ressemblances ont tendance à partager de l information sur leur(s) fonction(s) cellulaires et biochimiques «si je ressemble à une pomme, je suis sans doute une pomme» Or, il est difficile de trouver expérimentalement la fonction d une protéine sans connaissance préalable Annoter par comparaison permet d orienter les recherches

18 Exprimer et interpréter la ressemblance On peut nommer la ressemblance entre deux séquences biologiques en terme de similarité et d identité : La similarité qui est une quantité mesurable de ressemblance, elle s exprime en % L identité qui signifie une ressemblance parfaite entre deux élément. Elle s exprime de manière binaire : 2 protéines sont identiques ou non

19 Similitudes et homologies La similarité ou similitude mesure donc un taux de ressemblance souvent noté «pourcentage de similitude» : % de similitude = % d'identité + % de substitutions conservatives L'homologie est une notion à connotation évolutive et indique que des séquences dérivent d'une séquence ancestrale commune. Remarque Deux séquences peuvent avoir un bon degré de similitude sans être homologues Deux séquences peuvent être homologues avec un faible degré de similitude.

20 Homologie Homologues = Séquences qui dérivent d un ancêtre commun. Blé gène A Colza gène A orthologues : Séquences similaires dans organismes différents (spéciation) Gene ancestral Duplication Chou gène A Chou gène A Chou gène A Blé gène A paralogues : Séquences au sein d'un organisme unique (duplication) Arabette gène A Remarque : ils existent d autres types d homologues comme les xénologues (transferts horizontaux), in-paralogues (duplication après spéciation) sinon outparalogues

21 Qu est ce qu un alignement? L'alignement de deux séquences est une représentation qui permet de visualiser leurs ressemblances : Identité, similitude, insertion, délétions Cet alignement se compose donc de 4 Segments identiques 2 Segments similaires 2 Segments alignés A et G Même classe : Purine Insertions de "gap" qui représente une insertion (séquence du haut) ou une délétion (séquence de bas)

22 Global ou local? Il est possible de réaliser un alignement : global, c'est-à-dire entre les deux séquences sur toute leur longueur local, entre une séquence et une partie d une autre séquence Similarité global Similarités locales

23 Global ou local? Il est possible de réaliser un alignement : global, c'est-à-dire entre les deux séquences sur toute leur longueur -> algorithme de Needleman-Wunsch local, entre une séquence et une partie de l'autre séquence -> algorithme de Smith-Waterman Similarité global Similarités locales

24 L alignement de séquences biologiques L alignement de séquences biologiques revient à aligner des chaînes de caractères Un alignement est une correspondance entre 2 ou plusieurs chaines de caractères sans en changer l ordre, et en autorisant éventuellement des «trous». Deux lettres identiques face à face = match Deux lettres différentes face à face = mismatch Une lettre face à un trou = gap ou indel (insertion-délétion) Le degré de similarité entre les séquences alignées est quantifié par un score.

25 L alphabet des séquences biologiques Un alphabet est un ensemble fini de symboles distincts deux à deux. L alphabet de l ADN est composé de 5 symboles ΣADN ={,A,C,G,T} L alphabet de l ARN également -> ΣARN = {,A,C,G,U} L alphabet des protéines est composé de 21 symboles ΣAA = {,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} qui représente les acides aminés

26 Notion de distance La distance de Hamming La distance de Hamming (dh) est très simple : Entre 2 mots de même longueur, dh est le nombre de substitutions de caractères nécessaire pour transformer le premier mot en second mot. Entre le mot U et le mot V : dh = 4 L'algorithme de Needleman et Wunsh est basée sur cette distance

27 Notion de distance La distance de Levenshtein Cette distance (dl) ajoute, à la distance de Hamming, la prise en compte de la présence des insertions, des délétions et des substitutions. La distance dl entre le mot U et le mot V se calcule à l'aide d'une matrice dite de programmation dynamique qui permet non seulement de calculer un score de similarité entre u et v mais aussi de les aligner. L'algorithme de Smith et Waterman est basé sur cette distance.

28 Notion de programmation dynamique La matrice dite de programmation dynamique Comparons ATTGA et ATCCGA avec une matrice de ce type. Ici la distance dl finale est de 2 ATTGA Dans chaque case, la fléche représente une possibilité (il y en a plusieurs) de type de calcul Identité (score=0) ou substitution (score=1) ATT - GA ATCCGA (score=1) Pour le mot horizontal, délétion Pour le mot horizontal, insertion Idem pour

29 Notion de score global On remarque dans l exemple précédent que l attribution du score global se fait «site par site» Il résulte de la somme des scores élémentaires calculés sur chacune des positions appariés de manière optimal. Ce score additif correspond à l hypothèse selon laquelle chaque séquence accumule des mutations à un rythme qui lui est propre selon la pression de sélection à laquelle elle est soumise et que chaque site est susceptible d évoluer indépendamment. C est une hypothèse simplificatrice qui peut parfois être fausse notamment pour les ARN.

30 Problème de score Scorer les gap Pénaliser les gaps ou ne pas les pénaliser? Quelle(s) pénalité(s)? Scorer les similitudes Les similitudes sont scorés à l aide de matrice(s) de substitution. Quelle matrice choisir sachant que, bien évidemment le score et l'alignement seront dépendants du choix de la matrice.

31 Scorer par identité Une façon simple de scorer un alignement est de compter le nombre de correspondance parfaite. On obtient un % de sites identiques en divisant le nombre de correspondance et le nombre de positions (en incluant les gaps) 11 matches identiques sur 16 positions = 68,75% (69%) de sites identiques

32 Scorer par identité Une façon simple de scorer un alignement est de compter le nombre de correspondance parfaite. On obtient un % de sites identiques en divisant le nombre de correspondance et le nombre de positions (en incluant les gaps) 11 matches identiques sur 16 positions = 68,75% (69%) de sites identiques Pb de la longueur : le % d identité dépend de la longueur, plus la séquence est longue, plus il diminue en général Pb des matchs aléatoires: dans l ADN, 25 % des positions matchent par hasard contre 5 % chez les protéines.

33 Scorer par identité Interprétation(s) < 20 % > 30% d acides aminés identiques Fonction(s) Différente(s) Fonction(s) similaire(s) probable Entre 20% et 30%, on est dans la «zone d ombre» Sauf pour des protéines très particulières, on n observe jamais 100% de sites identiques entre protéines homologues chez différentes espèces

34 Scorer à l aide de matrices Il existe plusieurs matrices de score Le mode de calcul est toujours le même 1 - Les scores élémentaires (se, site par site) sont donnés par la matrice 2 - Le score global est la somme des scores élémentaires Score global = Σ se 3 - Le score final est le score global moins la somme des pénalités P Score = Σ se - Σ P Le score est donc fonction de la longueur de l alignement, de la matrice utilisée et du poids des indels qui définit les pénalités.

35 Les matrices de substitution Matrices d identité existe pour ADN, ARN et les acides aminés Matrices «Génétique» pour les acides nucléiques Matrices «Homologie» pour les acides aminés Similarités physico-chimiques Evolution des substitutions Comparaison des séquences

36 Les matrices nucléiques Matrice d identité Matrice unitaire Matrice Transversion - Translation

37 Les matrices nucléiques Les modèles décrivant l évolution de l ADN JC Jukes et Cantor K80-K2P 1980 Kimura a=b=c=d=e=f a=c=d=f, b=e 2 substitutions K81-K3ST 1981-Kimura T /T Tamura a=f, b=e, c=d 3 substitutions a=c=d=f, b, e 3 substitutions

38 Les matrices protéiques Les matrices protéiques d identité ne sont pas utilisées puisqu 1 a.a. peut être substitué sans altération importante de la structure ou de la fonction par un autre qui lui ressemble. Ces ressemblances peuvent être de plusieurs types : - même charge - hydrophiles / hydrophobes - type de groupement latéral : polaire (groupe I), polaire non chargé (groupe II), chargé (groupe III)

39 Les matrices de substitution Les matrices protéiques liées à l évolution sont : Basées sur des arbres construits en utilisant le maximum de parcimonie : PAM (Dayhoff et al., 1978) JTT (Jones et al., 1992). Sur des arbres construits en utilisant le maximum de vraisemblance : WAG (Whelan et Goldman, 2001). Sur des comparaisons par paires utilisant des alignements locaux : BLOSUM (Henikoff et Henikoff, 1992) Gonnet (1992)

40 Matrice PAM (Point Accepted Mutation) Proposé par Margaret Dayhoff et al. en 1978 Une mutation ponctuelle acceptée (accepted point mutations) est une substitution entre 2 acides aminés accepté par la sélection naturelle L idée est d'analyser les mutations ponctuelles acceptées dans un grand nombre de groupes de séquences alignées et sans gap En 1978 : 71 familles de protéines id> 85% 1300 séquences Ensuite, ils ont calculé la probabilité qu un acide aminé change dans un petit intervalle évolutif = la mutabilité relative (relative mutability) mj = nombre de changements de j / nombre d'occurrences de j

41 Matrice PAM (Point Accepted Mutation) Mutabilité relative A l aide la matrice des mutations ponctuelles acceptées et la mutabilité relative, on calcule la probabilité de mutation pour chaque paire d acides aminés

42 Matrice PAM (Point Accepted Mutation) La matrice PAM1 Fréquences multipliées par Il y a 0.11% de probabilité que C soit remplacé par S

43 Matrice PAM (Point Accepted Mutation) La matrice PAM1 La matrice PAM1 donne la probabilité de mutation pour un intervalle d évolution dans lequel 1% des substitutions étaient acceptées Les probabilités de mutation pour des intervalles d évolution plus grands sont obtenues par la multiplication du PAM1 avec elle-même PAM120 = PAM substitutions acceptées pour 100 aa PAM250 = PAM substitutions acceptées pour 100 aa

44 Matrice PAM (Point Accepted Mutation) Distance évolutive et valeur des matrices PAM 25 % = PAM30 50 % de distance = PAM80 80% de distance = PAM246 Le «bon» choix de la matrice PAM dépend du jeu de données (connaissances à priori?)

45 Matrice PAM (Point Accepted Mutation) Les matrices PAM ont été réactualisées en 1992 par Jones, Taylor et Thornton. Ces matrices réactualisées apparaissent sous le nom de matrices JTT. La réactualisation a été conduite sur la base de 2621 familles de protéines ( séquences, mutations ponctuelles) issues de la base de données SWISSPROT. Boite à outils Site pour calculer matrice PAM

46 Matrice BLOSUM (BLOcks SUbstituion Matrix) Proposé par Henikoff & Henikoff en 1992 Dérivées d alignement multiples locaux de blocs Blocs = régions conservées de familles protéiques ne contenant pas d indels 2000 blocs provenant de 500 familles provenant de la banque de données BLOCKS (

47 Matrice BLOSUM (BLOcks SUbstituion Matrix) Les matrices BLOSUM ne sont pas basées sur la distance d évolution comme les matrices PAM Les matrices BLOSUM ont pour objectif de trouver des régions conservées entre différentes séquences en aa 504 groupes de séquences proches 2205 blocs Regroupés en clusters selon % id BLOSUM 62 = groupe de blocs à 62 % id BLOSUM 80 = groupe de blocs à 80% id

48 Matrice BLOSUM (BLOcks SUbstituion Matrix) Les matrices BLOSUM ont cependant tendance à «dériver» En effet, les bases de données contiennent un nombre très variables de séquences selon les espèces et selon les protéines. Les matrices BLOSUM tiennent ce décentrement en compte en appliquant une pondération (poids basé sur le nombre de séquences par blocs). On obtient une matrice de fréquences pondérées transformée ensuite en probabilités d occurence

49 Matrice BLOSUM (BLOcks SUbstituion Matrix) BLOSUM62

50 PAM versus BLOSUM Comparaison BLOSUM62 et PAM250 BLOSUM62 PAM250

51 Importance du choix de la matrice Impliquées dans toutes les analyses par comparaison de séquences par alignement Les résultats sont fortement dépendant de la matrice utilisée Comprendre une matrice permet de faire «le bon choix»

52 Importance du choix de la matrice Impliquées dans toutes les analyses par comparaison de séquences par alignement Les résultats sont fortement dépendant de la matrice utilisée Comprendre une matrice permet de faire «le bon choix» A RETENIR 80% Id 60% Id 40% Id 20% Id 80% Id 62% Id 30% Id

53 Comparer deux séquences? La comparaison de deux séquences peut se faire : Par dotplot Par alignement L alignement 2 à 2 peut-être : - global ou local - réalisé par : programmation dynamique méthode heuristique apprentissage machine

54 Le Dot Plot Les dotplots ou (graphe par matrice de points) sont utilisés : Une représentation graphique de la similarité par paires Sa simplicité empêche les artefacts Idéal pour rechercher des caractéristiques similaires dans des ordres différents (répétitions, inversions ) Bénéficier de la plus sophistiquée d'analyse statistique outil dans l'univers... votre cerveau

55 Le Dot Plot Les dotplots sont utilisés : Pour mettre en évidence visuellement des ressemblances/différences globales ou locales entre deux séquences Par les programmes de recherche de similarité dans les premières étapes de recherche. Pour analyser les régions de séquence de «faible complexité» Pour analyser les séquences qui «résistent» à la recherche classique d homologie de séquences

56 Le Dot Plot Le DotPlot utilise une matrice élémentaire ou unitaire également appelé tableau à double entrée

57 Le Dot Plot Lecture d un dotplot Dans un dotplot, les deux séquences sont placées le long des axes d'un graphique : L axe X représente la première séquence L axe Y représente la seconde séquence L'intersection de chaque ligne et colonne est marquée d'un point si la lettre est la même dans les deux séquences Seq 2 Une diagonale révèle une région identique entre les deux séquences. Seq 1

58 Le Dot Plot (exemples) ARN gène A DotPlot et épissage ADN gène A DotPlot et répétitions DotPlot et synténie Zone d instabilité synténique inversion Matrices dot plot de séquences IGS de six espèces de diptères révélant différentes tailles de sous-répétitions (Huang et al, 2011)

59 Le Dot Plot (exemples) DotPlot et structure d ARN DotPlot et fonction assignation pour protéines A : organisation fonctionnelle de la structure primaire de la protéine P101 B : dotplot avec un homologue putatif Hofacker et al, 1998 Voigtet al, 2005

60 Le Dot Plot (exemples) DotPlot et génomes DotPlot et assemblage (NGS) Comparaison des génomes de maïs et de sorgho Schnable et al, 2010 Dotplot d'une portion de scaffold et des BACs qui reflète l absence de problème d assemblage (ordre ou orientations des contigs corrects) Mural et al, 2002

61 Les outils pour réaliser des dotplots YASS

62 Les outils pour réaliser des dotplots YASS Génome 1 Génome 1 Input : Séquence acide nulcéique (.fna) Sans annotation

63 Les outils pour réaliser des dotplots

64 Les outils pour réaliser des dotplots YASS Génome 1 Génome 2

65 Les outils pour réaliser des dotplots

66 Les outils pour réaliser des dotplots ZPICTURE Outil pour visualiser les alignements blastz (alignement local à base de graines espacées) en utilisant PipMaker (serveur web d alignement) Possibilité d entrer des annotations en plus (# avec YASS) Possibilité d entrer des numéros d accession Exemple avec 2 génomes bactériens

67 ZPICTURE Liste ECR Evolutionary Conserved Regions

68 ZPICTURE Liste ECR 2 paramètres Génome 1 Génome 2

69 ZPICTURE Alignement 2 formats

70 ZPICTURE Alignement

71 ZPICTURE Alignement

72 ZPICTURE Dot-plot Si annotations

73 ZPICTURE Dot plot

74 ZPICTURE Vizualisation

75 ZPICTURE Vizualisation

76 Les outils pour réaliser des dotplots Quelques autres outils de Dot-plot (séquences plus petites ou plus homologues) DOTLET ou EMBOSS Dottup DNAdot APLOT 2 applets Java intéressantes Gepard JDotter

77 Référence Dotplots Gibbs, A. J. & McIntyre, G. A. (1970). The diagram method for comparing sequences. its use with amino acid and nucleotide sequences. Eur. J. Biochem. 16, Staden, R. (1982). An interactive graphics program for comparing and aligning nucleic-acid and amino-acid sequences. Nucl. Acid. Res. 10 (9),

78 Conclusion sur les dotplots Avantages et inconvénients les plus: les moins: - simple - très informatif - on peut comparer sans «annotation» - interprétation pas de mesure objective - pas d information fonctionnelle besoin de méthodes complémentaires permettant une mesure quantitative et qualitative des similarités

79 L alignement de séquences Quelle préférence : faire juste ou faire vite? Les méthodes dites exactes dont le résultat est garanti pour être mathématiquement optimal : Needleman-Wunsch (global) Smith-Waterman (local) Les méthodes dites heuristiques qui font rapidement des hypothèses vraisemblables mais pas nécessairement optimisées : BLAST FASTA

80 Les méthodes exactes Programmation dynamique Algorithme de Needleman & Wunsch (1970) alignement global optimal de 2 séquences entre deux séquences sur toute leur longueur Algorithme de Smith & Waterman (1981) alignement local optimal de 2 séquences entre une séquence et une partie d une autre séquence

81 Comparaison des 2 algorithmes Exemple avec la matrice de score suivante : Match = +1 Mismatch = -1 Gap = -1

82 Needleman & Wunsch Algorithme de Needleman & Wunsch Exemple de «programmation dynamique» Première application pour les séquences biologiques. Initialement développé pour les séquences protéiques Cet algorithme s appuie sur trois étapes : Initialisation : matrice avec les séquences Première ligne et colonne remplies par des «gaps»

83 Needleman & Wunsch Initialisation : matrice avec les séquences Score : remplissage de la matrice -> matrice score final

84 Needleman & Wunsch Initialisation : matrice avec les séquences Score : remplissage de la matrice -> matrice score final «Trace back» : remonte et recherche chemin optimal (trois mouvements : diagonale, up et down) Meilleur alignment: A T C G!! _ T C G!

85 Smith & Waterman Variation de l alignement de Needleman & Wunsch Basé sur la distance de Hamming Cet algorithme s appuie également sur trois étapes : Initialisation : matrice avec les séquences Première ligne et colonne remplies par des zéros

86 Smith & Waterman Initialisation : matrice avec les séquences Score et matrice de score finale

87 Smith & Waterman Initialisation : matrice avec les séquences Score et matrice de score finale «Trace back» : remonte et recherche chemin optimal (trois mouvements : diagonale, up et down) Meilleur alignment: T C G!! T C G!

88 Resumé Needelman- Wunch Smith-Waterman GLOBAL LOCAL Meilleur alignment: A T C G!! _ T C G! Meilleur alignment: T C G!! T C G!

89 Comparer global et local LALIGN (W. Pearson, 1991) Le programme LALIGN permet de faire soit un alignement local soit un alignement global avec 2 séquences (protéiques ou nucléiques)

90 Autres outils en ligne d intérêt LALIGN (W. Pearson, 1991) METHODE MATRICE PENALITES SEQUENCES

91 Autres outils en ligne d intérêt LALIGN (W. Pearson, 1991) >seq1! GCGACTGTTCGGAGGAAAGTGAGTCTGTGGTACTGATGGAGTCACGTAC! >seq2! GCATGCGAGGACGGAAAAGTGGTCAAGGCTGCAGTCACCTACGTCGTAC! GLOBAL versus LOCAL

92 Les paramètres des alignements Pour les méthodes fonctionnant avec un fenêtre glissante comme le dot plot, deux paramètres : La taille de la fenêtre et Le pas de glisse Taille = 3 Pas = 2 Taille = 3 Pas = 3 88, 96, 92, 74, 56, 66, 85, 97, 82, 88, 96, 92, 74, 56, 66, 85, 97, 82, 77 Trop d informations Perte d informations

93 La pénalité des indels Insertions ou délétions : indels (gap) La fonction linéaire de pénalité d'un gap est définie par : n = longueur du gap d = pénalité d'ouverture d'un gap e = pénalité d'extension d'un gap Exemple : un gap de longueur n = 3, avec une pénalité d'ouverture de -10 et d'extension de -2, aura un score de f = (-2 x 2) = -14 La fonction de pénalités des gaps sontdifférentes selon les algorithmes : Fonction affine (plus réaliste) : f(n)=d+e*n mais aussi fonctions logarithmiques

94 La pénalité des indels La fréquence moyenne observé pour les gaps et de 1/10, de sorte qu'ils sont communs dans la plupart des alignements. Symbolisé par des tirets (---) jumelé avec des résidus: décalage avec un espace vide. GAP OPEN (GOP): GAP EXTENSION (GEP) : valeur de la pénalité pour l'ouverture d'un gap. valeur de la pénalité pour l'extension d'un gap. GOP : -3 GEP : -1 Identité = 4 Calculez les scores? Quel alignement est le moins «pesant»?

95 La pénalité des indels GAP OPEN (GOP): valeur de la pénalité pour l'ouverture d'un gap. GAP EXTENSION (GEP) : valeur de la pénalité pour l'extension d'un gap. GOP : -3 GEP : -1 Identité = 4 Score = 9 Score = 7

96 La pénalité des indels En programmation dynamique, changer la pénalité de gap revient à changer le chemin parcouru et donc l alignement Gap penalty = -4 Gap penalty = -8

97 Effet de la pénalité des indels 2 protéines LALIGN global.

98 Choix des matrices Il existe de nombreuses matrices Il est difficile de savoir laquelle utilisée Les premières études comparatives sur l'utilisation de différentes matrices (Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient qu'il n'existe pas de matrice idéale.

99 Choix des matrices Il existe de nombreuses matrices Il est difficile de savoir laquelle utilisée Les premières études comparatives sur l'utilisation de différentes matrices (Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient qu'il n'existe pas de matrice idéale.

100 PAM120 vs BLOSUM 35 2 protéines LALIGN global. PAM120 BLOSUM35

101 ALIGNEMENT de SEQUENCE DEFINITION ALIGNEMENT RECHERCHE DE SIMILARITES MULTIPLE

102 Prédiction de fonctions par ressemblance RESSEMBLANCE HOMOLOGIE FONCTION CONSERVEE Concept de fonction est flou : Activité biochimique identique? Distribution tissulaire identique? Compartimentation identique?

103 Remarque : L homologie de séquence traduit la parenté -> On est homologue ou on ne l'est pas -> On ne dit pas: "très homologue", "faible homologie", etc Dans ces cas là, on parle de similitude ("très similaires", etc.).

104 Identifier les similarités Par alignement de séquences 2 à 2 : A l aide des algorithmes Needleman-Wunsch Smith Waterman Et des outils BLAST FASTA

105 BLAST et FASTA sont des heuristiques BLAST : Basic Local Alignment Search Tool (Lipman, Karlin, Altschul, 1990) FASTA : FAST-ALL (David J. Lipman and William R. Pearson in 1985) Programmes d'alignement local de séquences basé sur une heuristique. Une heuristique est un algorithme qui fournit rapidement une solution qui n est pas nécessairement optimale. Une heuristique et donc une méthode approximative, qui s oppose aux algorithmes exacts (trop lents ou trop gourmands). Uniprot 02/2013= 29,769,971 protéines (9,585,856,378 aa) Si chaque comparaison prend 0,01 seconde, une requête (tt les comparaisons 2 à 2) prendrait 82 heures (plus de 3 jours)

106 FASTA La programmation dynamique calcule des scores sur des espaces inutiles pour la recherche du score optimal FASTA se concentre sur la diagonale

107 FASTA La programmation dynamique calcule des scores sur des espaces inutiles pour la recherche du score optimal FASTA se concentre sur la diagonale

108 FASTA L'algorithme du programme FASTA peut se résumer en quelques étapes: Etape 1 : Recherche dans un «dot plot» des hot spot qui sont des appariements parfaits (identiques) de mots de longueurs k.

109 FASTA Etape 2 : Score chaque hot spot (gap penalty et matrice) et garde les 10 meilleurs diagonales

110 FASTA Etape 2 : Score chaque hot spot (matrice) et garde les 10 meilleurs diagonales Etape 3 : Combine ces segments (sous-alignement) en un alignement unique avec gaps (gap penalty) et recherche le meilleur alignement (meilleur score)

111 FASTA sur le web Choix du programme

112 Choix du programme FASTA SEQUENCE BANQUE Protéique FASTA Protéique T T Nucléique FASTA Nucléique TFASTX ne tolère pas les décalages de phases (frameshif) TFASTY tolère pas les décalages de phases

113 Autres programmes Choix du programme SSEARCH : GGSEARCH: Utilisation de l algorithme de Smith-Waterman Utilisation de l algorithme de Needleman-Wunsch GLSEARCH : Alignements global dans la query et local dans la database

114 Parametres de FASTA Paramètres cachés

115 Paramètres de FASTA Paramètres cachés

116 Paramètres de FASTA Paramètres cachés VTML ou VT décrites par Muller et al. (2002). Maximum de vraisemblance ou maximum like- lihood approach. VTML est adéquat pour les petites jeux de données MDM sont les matrices PAM réactualisés par Jones et al. (Jones et al., 1992). Parfois appelées matrices JTT Clic on matrix

117 Matrices de FASTA?? Comparons : PAM120 et VTML120 (sinon défaut)

118 Matrices de FASTA Comparons PAM120 et VTML120 1 séquence protéique de 234 aa / Banque par défaut (uniprotkb) PAM120 Durée du travail : 1min 44

119 Matrices de FASTA Comparons PAM120 et VTML120 1 séquence protéique de 234 aa / Banque par défaut (uniprotkb) VTML120 Durée du travail : 3 min 30

120 Autres paramètres FASTA GOP GEP E-value KTUP

121 Remarque sur la longueur du k-tuple Sensibilité (Sensitivity): Aptitude à détecter toutes les similarités «significatives» (minimiser les faux négatifs) Sélectivité (Selectivity): Aptitude à ne sélectionner que des similarités «significatives» (minimiser les faux positifs) K-tuple est grand Sélective faible' Sensibilité forte Je risque de recruter des mauvais candidats Sélective forte' Sensibilité faible Je risque de perdre des bons candidats K-tuple est petit

122 Les sorties de FASTA

123 FASTA (Submission details)

124 FASTA (Submission details)

125 FASTA (Tool output)

126 FASTA (Tool output)

127 FASTA (Visual output)

128 FASTA (Functional predictions) Base de données de domaines protéiques

129 BLAST L'algorithme du programme BLAST peut se résumer en quelques étapes: Etape 1 : La séquence est filtrée par défaut (optionnel) afin d'enlever les régions de faible complexité. Ex : AAAAAAA Etape 2: Une liste contenant tous les mots de k lettres de cette séquence est construite (hachage) ATGCTGCCTGATCGCTTTATCTGCGCGTGCTGAACTGGGCCTA k

130 Remarque sur la longueur du mot k Sensibilité (Sensitivity): Aptitude à détecter toutes les similarités «significatives» (minimiser les faux négatifs) Sélectivité (Selectivity): Aptitude à ne sélectionner que des similarités «significatives» (minimiser les faux positifs) k est grand Sélective faible' Sensibilité forte Je risque de recruter des mauvais candidats Sélective forte' Sensibilité faible Je risque de perdre des bons candidats k est petit

131 Algorithme du programme BLAST Chacun de ces mots est alors comparé à tous les mots de longueur k des bases de données en utilisant la matrice de substitution choisie (les bases de données contiennent des séquences indexées) ATGCTGCCTGATCGCTTTATCTGCGCGTGCTGAACTGGGCCTA TGGGCC Seq 98 Seq 22.. GCTGCC Seq 58 Seq 556 GATCGC Seq 96 Seq 22.. TTTCTC Seq 243 Seq TTTATT Seq 2 Seq 5686 ATGCTG Seq 56 Seq 22

132 Double critère Sélection des séquences qui partagent au moins 2 hits ATGCTGCCTGATCGCTTTATCTGCGCGTGCTGAACTGGGCCTA TGGGCC Seq 98 Seq 22.. GCTGCC Seq 58 Seq 556 GATCGC Seq 96 Seq 22.. TTTCTC Seq 243 Seq TTTATT Seq 2 Seq 5686 ATGCTG Seq 56 Seq 22

133 HSP : High Scoring Pairs Ces hits ou segments similaires sont appelés High Scoring Pair (HSP). ATGCTGCCTGATCGCTTTATCTGCGCGTGCTGAACTGGGCCTA HSP1 HSP2 HSP3 ATGCTGCTTTCCCCCCTGATCGCTGAGCTGGGCC

134 Elongation des HSP Chacun des HSP à un score initial (> seuil) Ces HSP sont prolongés des deux sens afin d'obtenir des alignements plus longs ayant des scores maximaux supérieurs au seuil fixé Cette procédure d'élongation s'arrête lorsque l'alignement génère un score inférieur au seuil (non significatif) ou lorsque 2 HSP se rejoignent ATGCTGCCTGATCGCTTTATCTGCGCGTGCTGAACTGGGCCTA ATGCTGCTTTCCCCCCTGATCGCTGAGCTGGGCC

135 BLAST sur le web Choix du programme

136 Choix du programme SEQUENCE BANQUE Protéique BLASTP Protéique T T Nucléique T BLASTN TBLASTX T Nucléique

137 Les 6 phases de lecture Un brin d ADN peux donc être divisé en 3 chaines de triplets appelés «phases de lecture» ou «reading frames»

138 Les 6 phases de lecture Un brin d ADN peux donc être divisé en 3 chaines de triplets appelés «phases de lecture» ou «reading frames» L ADN est bicaténaire, les deux brins sont codants, ce qui donne non pas 3 mais 6 phases de lecture

139 Nombre de comparaisons : Prog. Input Database 1 Blastn ADN ADN 1 Blastp Prot. Prot. 6 Blastx ADN Prot. 6 tblastn Prot. ADN 36 tblastx ADN ADN

140 BLAST Input Choix d une région de la séquence Base de comparaison

141 BLAST Limitation à un taxid, organisme Exclusion séquences modèles NCBI et échantillons environnementaux

142 BLAST Les paramètres Expect Taille mot (word size) Matrice Pénalité GO,GE Filtre

143 L expect value de BLAST E-value (Expect) = Nombre d'alignements attendus par hasard ayant un score supérieur au seuil dans la banque de données de taille équivalente Plus la valeur de la e-value est faible, plus l'alignement est fiable E-value de 4 e-4 : il me faudra blaster 2500 séquences au hasard pour obtenir une séquence avec un score > seuil E-value de 1 e-70 : il me faudra blaster 1 e70 séquences au hasard pour obtenir une séquence avec un score > seuil

144 L expect value E-value (Expect) = Nombre d'alignements attendus par hasard ayant un score supérieur au seuil dans la banque de données de taille équivalente Plus la valeur de la e-value est faible, plus l'alignement est fiable E-value de 4 e-4 : il me faudra comparer 2500 séquences au hasard pour obtenir une séquence avec un score > seuil E-value de 1 e-70 : il me faudra comparer 1 e70 séquences au hasard pour obtenir une séquence avec un score > seuil Attention cependant : cette probabilité de ne pas être «au hasard» dépend de la taille de la banque de données utilisée!

145 E-value et espace de requête E-value statistique de Karlin et Altschul m est le nombre de lettres de la séquence requête n est le nombre de lettre dans la base de données S est le score seuil (bit score) R est le score brut (raw score) m*n est l espace de recherche Relation linéaire avec la taille de l espace de recherche: si la taille de la banque double, la e-value double aussi. Relation exponentielle avec le score: de petits changements de score peuvent entrainer d important changement de la e-value.

146 L expect value de BLAST K et lambda sont des paramètres statistiques propres à l algorithme

147 Les scores de BLAST Le score final de l alignement dépend de la matrice utilisée ainsi que des pénalités de gap. Pour comparer 2 alignements obtenus à partir de paramètres différents, on va devoir «normaliser» les scores Cette normalisation s effectue à partir de facteurs pré-calculés par Blast et est exprimé en bit (unité standard d information, un bit étant une quantité d information nécessaire pour distinguer 2 possibilités) Ce score permet de faire varier les paramètres matrice-gap penalty, de comparer les alignements et de dire lequel est le meilleur

148 Exemple usage «bit score» BLOSUM 80 (10,1) BLOSUM 45 (15,2)

149 La sortie de BLAST (output) input Base de données programme

150 «Search Summary» Taille mot w = 3 E value seuil Pénalité Gap Matrice Score seuil = 11 Taille de la base de données Prendre l habitude de sauvegarder le summary

151 La sortie «Taxonomy» BLAST présente les séquences trouvées en fonction de leur appartenance taxonomique. Les valeurs représentent (de gauche à droite) : Le meilleur score pour chaque espèce, le nombre hits par espèce et la description du meilleur hit

152 La sortie «Taxonomy» Les résultats sont ensuite détaillés organisme par organisme Tous les hits du même organisme apparaissent ensemble, rangés par score Les organismes étant rangées en fonction du score également

153 La sortie «Taxonomy» BLAST présente les séquences trouvées en fonction de leur appartenance taxonomique. Les valeurs représentent (de gauche à droite) : Le meilleur score pour chaque espèce, le nombre hits par espèce et la description du meilleur hit

154 La sortie «Tree» Arbre des séquences regroupées en fonction de leurs distances (Arbre des distance) Cet affichage peut permettre de reconnaître la présence de séquences aberrantes ou inhabituels ou d observer graphiquement les membres d'une famille de gènes homologues provenant d'autres espèces.

155 La sortie «Graphique» Domaines Sortie graphique Chaque ligne représente un hit La couleur représente le bit score Si on passe la souris sur la ligne, on voit la description. Si on clic, on obtient l alignement concerné

156 La sortie «Table» Max score: Score meilleur HSP Total score : Somme des scores des HSP Query coverage : % query dans l alignement

157 BLAST ou FASTA FASTA (Pearson 1995) BLAST (Altschul 1990, 1997) Utilise une heuristique pour éviter le calcul complet de la matrice de programmation dynamique Utilise une heuristique de recherche de mots permettant d exclure rapidement la plupart des entrées de base de données Rapide 1X plus rapide que Smith-Waterman Extrêmement rapide 1X plus rapide que FASTA 2X plus rapide que Smith-Waterman Statistique meilleur que celle BLAST Presque aussi sensible que FASTA

158 BLAST ou FASTA uniprotkb/swissprot / PAM250 / GOP -14 / GEP -2 FASTA : 7 secondes BLAST : 5 secondes

159 BLAST ou FASTA uniprotkb/swissprot / PAM250 / GOP -14 / GEP -2 FASTA : 7 secondes BLAST : 5 secondes

160 Interprétons des alignements Jouons avec FASTA et Blast Les questions : Quel programme utilisé? Quelle base de données? Quels paramètres? Comment interpréter les résultats?

161 Cas n 1 Fragment d ADN anonyme : Quel programme utilisé? Si on utilise BLAST en premier

162 Cas n 1 Fragment d ADN anonyme : Quel programme Blast utilisé? Protéique T Nucléique T BLASTN TBLASTX T Nucléique

163 Cas n 1 : Les questions : Quel programme Blast utilisé? > BlastN puis BlastX et en dernier recours tblastx Quelle base de données? Mon ADN provient d une bactérie : Banque nr bacteria (Taxid ) Quels paramètres? Je ne sais rien : je commence par les parametres par defaut

164 Cas n 1 : BlastN Il existe des séquence hautement similaires 2 régions avec 2 niveaux de conservation Il existe un grand gap dans certaines régions similaires (grande ligne continue entre 2 régions) Il existe une rupture dans la zone «rose» (trait vertical) Regardons de plus près

165 Cas n 1 : BlastN : la partie «rose»

166 Cas n 1 : BlastN : résultat 1

167 Cas n 1 : BlastN la partie «rouge»

168 Cas n 1 : BlastN la partie «rouge»

169 Cas n 1 : BlastN la partie «rouge» A la sortie du BlastN Je sais qu il y a sur ma séquence, une région répétée dans d autres génomes mais je ne connais pas sa fonction Je sais que je dois avoir une gène ou un pseudogène codant une protéine impliqué dans le transport mais je n ai ni ces bornes, ni son brin -> BlastX

170 Cas n 1 : BlastX Domaine Cassure

171 Cas n 1 : BlastX Description variée pour même score

172 Cas n 1 : BlastX Similarité avec protéine bien conservée (rouge) Zone de rupture (trait vertical) semble indiqué que sur mon fragment, il s agirait d un pseudogene -> vérification dans l alignement

173 Cas n 1 : BlastX

174 Cas n 1 : BlastX A la sortie du BlastX Je sais que ma séquence contient un pseudogène, par frameshift, d un gène codant un transporteur Je ne sais toujours l identité de ma région répétée mais à priori, il ne s agit pas d une région codant Je peux donc la comparer avec des régions non codantes = RFAM (banques de petits ARN) ou tester s il s agit d un trna par exemple (trna val)

175 BlastX (autre cas de pseudogene) Stop in frame - phase ouverte interrompue par stop

176 Cas n 1 Fragment d ADN anonyme : Et si j utilise FASTA Quel programme utilisé?

177 Cas n 1 Fragment d ADN anonyme : Quel programme Blast utilisé? Protéique T Nucléique FASTA Nucléique

178 Cas n 1 : Les questions : Quel programme Blast utilisé? > FASTA (onglet nucléotide) puis FASTX Quelle base de données? Mon ADN provient d une bactérie : EMBL prokaryotes Quels paramètres? Je ne sais rien : je commence par les paramètres par défaut

179 Cas n 1 : FASTA

180 Cas n 1 : FASTA

181 Cas n 1 : FASTX

182 Cas n 2 Séquence protéique >Seqinconnue MNTYVTGSTIRQLREAKGLTQAELAGTLSVSAKTIS WETAKGLPDISLLEPLAAALGVSVLELMQGEPIINRN AANLLRSKLYVCPLCGNVLHATGQAVVSCCGITLPA DIAEAEDADEHHQLTVERVEDELFVTLHHPMEKNH SFLAYLTGDKLQLVKLYPEGDASARFSLRGAGVLYF CNCHGLMKAPDFRTATRRTSPQKIHLREPDEGDRE VMAYREEFLAINSRMDGTSALDKYADFDAWLAQ Test de BlastP vs FASTA Test de FASTA (protéique), de TFASTX et TFASTY

183 Cas n 2 : BlastP (banque nr) Seqinconnue apparaît comme une protéine fusionnant 2 domaines 1-80 : Un domaine N-terminal de type HTH_XRE (régulation) : Un domaine C-terminal de dfx_rob (desulforedoxin, detoxication)

184 Cas n 2 : BlastP (banque nr) Cette fusion n apparaissent pas sur cette représentation, hormis l information de séquences homologues plus courte en C-term

185 Cas n 2 : BlastP (banque nr) Reformat

186 Cas n 2 : BlastP (banque nr)

187 Cas n 2 : BlastP (banque nr) Seqinconnue

188 Cas n 2 : FASTA (sur Uniprot Knowledgebase) Sur la représentation graphique FASTA, je ne vois que HTH

189 Cas n 2 : FASTA (sur Uniprot Knowledgebase) Sur la représentation «funtionnel», je ne vois 3 informations

190 Cas n 2 : FASTA (sur Uniprot Knowledgebase) Si je décoche GENE3D, j obtiens non pas 2 mais 3 domaines

191 Dérivés de BLAST et de FASTA DEFINITION ALIGNEMENT MULTIPLE

192 Dérivés de BLAST et de FASTA PSI-blast (NCBI) et PSI-search (EBI, PSI-fasta) PHI-Blast DELTA-Blast

193 PSI-BLAST (PSI-search) PSI-BLAST (Position-Specific Iterative) est un programme basé sur BLAST et qui donne la possibilité de relancer les comparaisons de séquences de façon itérative. Avec PSI-BLAST la séquence query est d abord comparé aux banques de données à l aide d un BLAST normal. Cette itération produit une matrice de distance (PSSM) qui sert ensuite aux autres itérations. A chaque nouvelle itération, un nouveau profil PSSM est construit et la recherche est réitérée avec ce profil comme requête, sur la banque choisie initialement. PSI-BLAST est très utile pour : Identifier les membres éloignés d une même famille Créer des PSSM

194 Les PSSM en bref PSSM pour "position-specific scoring matrix», équivalent à "position-dependent weight matrix". Position ou colonne Lettre possible Probabilité

195 PSI-BLAST Séquence QUERY Blast «régulier» PSSM Séquences similaires

196 PSI-BLAST Séquence QUERY PSSM Blast «régulier» PSSM PSSM2 Séquences similaires Séquences Avec profils

197 A la découverte de PSI-Blast

198 PSI-Blast - results

199 PSI-Blast - results Etc Les itérations s'arrêtent lorsqu'il y a convergence, c'est à dire lorsque les séquences résultats de l'itération n sont identiques à celles de l'itération n-1.

200 PSI-BLAST Avantages: PSI-BLAST permet de trouver des séquences qui sont proches de la séquence query, et apprend comment élargir ce cercle de séquences proches. Inconvénients: Si l on «attrape» un faux positif, on attrapera tous les séquences qui lui sont proches -> phénomène de contamination qui risque d être de pire en pire à chaque itération.

201 PSI-BLAST et valeur seuil

202 PHI-BLAST PHI-BLAST (Pattern Hit Initiated) est un programme basé sur BLAST2.0 qui permet de spécifier soi-même un motif qui sert de critère de présélection pour la comparaison de séquences Avantage : PHI-BLAST est plus rapide que BLAST, puisque le motif donné est nécessairement moins complexe que le modèle construit par l'heuristique. Inconvénient : il faut connaître un motif caractéristique de la séquence requête. Notons que cette méthode n'est pas nécessairement «meilleure» par rapport à la méthode blast classique ; elle est simplement différente.

203 Jouons avec PHI-BLAST Pattern au format PROSITE : Séquences requêtes : ZP_ Attention : le motif doit exister dans la requête.

204 Jouons avec PHI-BLAST

205 DELTA-BLAST DELTA-BLAST (Domain enhanced lookup time accelerated BLAST) est un programme qui recherche une base de données de PSSMs pré-construites avant de chercher dans la base de données de séquence protéique, pour obtenir une meilleure détection d'homologie. Pour ses PSSMs, DELTA-BLAST utilise un sous-ensemble de base de données de domaine conservé de NCBI (CDD).

206 DELTA-BLAST DELTA-BLAST (Domain enhanced lookup time accelerated BLAST) est un programme qui recherche une base de données de PSSMs pré-construites avant de chercher dans la base de données de séquence protéique, pour obtenir une meilleure détection d'homologie. Pour ses PSSMs, DELTA-BLAST utilise un sous-ensemble de base de données de domaine conservé de NCBI (CDD).

207 DELTA-BLAST vs PSI-BLAST

208 DELTA-BLAST vs PSI-BLAST 2eme meilleur hit

209 Remarque sur recherche d homologie Si possible, comparer des séquences en aa (même traduite) que des séquences en acides nucléiques Observer tous les résultats (graphiques, alignements ) Gardez à l'esprit que les séquences des banques contiennent des erreurs et/ou des imprécisions Gardez en tête les limites : Gènes inconnus : cas des gènes «orphelins Maturation post-traductionnelle

210 ALIGNEMENTS MULTIPLES DEFINITION ALIGNEMENT MULTIPLE

211 Problèmatique Pour un alignement de plus de trois séquences, chaque site est : - soit homologue (supposé présent chez un ancêtre commun) - soit délété, soit inséré, soit muté (substitution non homologue). Au delà de deux séquences, le problème d alignement devient complexe car l espace des alignements possibles explose. Le critère d évaluation est souvent une fonction de score.

212 Deux approches = deux objectifs L alignement de séquences 2 à 2 permet une détection de similarité syntaxique qui traduit éventuellement une fonction commune L alignement multiple concerne une famille de séquences supposées ayant une fonction commune et pour laquelle on recherche une éventuelle conservation syntaxique. 2 à 2 multiple Similarité syntaxique Fonction commune Fonction commune? Similarité syntaxique?

213 Alignements multiples - Permet l assemblage de génomes ou la construction de carte de contigs et de «scaffolds». Contigs Scaffolds - Permet la génomique comparative par alignement de génomes complets ou partiels.

214 Alignements multiples - Identifier des régions ou des sous-régions conservés et variables - Inférer un arbre phylogénétique à partir des sites conservés

215 Alignements multiples - Trouver des structures conservées

216 Méthodes - Comme pour l alignement 2 à 2, il s agit de «jouer au mieux» avec les matchs, les gaps et les mismatches - «Faire au mieux» consiste à scorer les colonnes puis l alignement n seq Alignement de n seq Score de l alignement Les algorithmes d alignements cherchent à maximiser le score, ce qui indique que l alignement est optimal

217 «Scorer les colonnes avec la méthode SP» La méthode la plus utilisée est le score «somme des paires» (SP Sum-of-pairs Carrillo, Lipman, 1988) Cette méthode consiste à sommer chaque colonne, à l aide d une matrice de substitution, en prenant en compte les «gap penalty» En faisant la moyenne par paire, ou la somme de l ensemble des colonnes, on obtient le score de l alignement. -La prise en compte des gaps est un point critique du calcul de score et dépend de chaque algorithme.

218 Sum of pair Séquence Colonne A Colonne B Colonne C A A A A A A A A A A A G A C C A A A le score SP A A A A A C A A A G A G Matches Mismatches Score col = =6 MATCH score = 6 MISMATCH score = -3

219 «Scorer les colonnes avec la méthode TA» Le score TA -> tree alignment - Les séquences sont liées par une histoire évolutive donc on peux les représenter suivant un arbre. - Le score est la somme des scores des couples liés par une branche de l arbre A A A A C SP score = 24 TA Score = 15 SP score = 6 A A A G C TA Score = 6 MATCH score = 6 MISMATCH score = -3

220 «Scorer les colonnes avec la méthode SA» - Le score SA (star tree) - Les séquences sont supposées liées par une séquence commune de référence (ancêtre, motif, consensus ) - Le score est la somme des scores entre les résidus et la référence consensus A MATCH score = 6 MISMATCH score = A A 6 6 A 6 6 A -3 C A SP score = 24 TA Score = 15 SA Score = 21

221 Méthodes - 4 grands principes: 1- Programmation Dynamique 2-Segmentation: 3-Progressive : 4-Iterative:

222 L alignement progressif - L alignement progressif - Approche heuristique définie par Feng et Doolittle en 1987 pour aligner progressivement plusieurs paires ou groupes de séquences. - Les problèmes sont : Par quelle(s) séquences commencer? Comment décider de l ordre d alignement? Comment mesurer la similarité entre groupes de séquences? - Cette approche ne garantit pas l alignement optimal et est sensible à l'ordre des séquences

223 Méthodes - Alignement progressif - Par quelle(s) séquences commencer? - On aligne d abord les séquences les plus proches en pratiquant un alignement 2 à 2. - La méthode d alignement pouvant être locale ou globale, par programmation dynamique ou heuristique Hbb_human 3 LTPEEKSAVTALWGKV..NVDEVGGEALGRLLVVYPWTQRFFESFGDLST.... :.. :. :. : Hba_human 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLS.... Hbb_human 1 VHLTPEEKSAVTALWGKVNVDEVGGEALGRLLVVYPWTQRFFESFGDLST..... : : Hbb_horse 1 VQLSGEEKAAVLALWDKVNEEEVGGEALGRLLVVYPWTQRFFDSFGDLSN... Hba_human 2 LSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF.DLSH... : :. :. :. Hbb_horse 3 LSGEEKAAVLALWDKVNEE..EVGGEALGRLLVVYPWTQRFFDSFGDLSN... etc 7 globines Exemple avec globines

224 Alignement progressif SeqA: GAAGTT! SeqB: GACTT! SeqC: GTACTG! seqd: GAACTG! GAAGTT! GA-CTT! GAACTG! GtACTG! GAAGTT! GA-CTT! GAACTG! GtACTG! Au lieu de GAAGTT! G-ACTT! GAACTG! GtACTG!

225 Alignement progressif - Problème Les alignements intermédiaires «figés» : once a mismatch, always a mismatch, once a gap always a gap SeqA: GAAGTT! SeqB: GACTT! SeqC: GTACTG! seqd: GAACTG! GAAGTT! GA-CTT! GAACTG! GtACTG! GAAGTT! GA-CTT! GAACTG! GtACTG! Au lieu de GAAGTT! G-ACTT! GAACTG! GtACTG!

226 Alignement iteratif - Le rafinement itératif : Obtenir un premier alignement multiple même de «mauvaise qualité» Améliorer cet alignement par une suite d itérations jusqu à ce que l alignement ne puisse plus être amélioré L itération peux faire appel à des mé thodes déterministes (selon des modèles) ou stochastiques (au hasard)

227 Alignement iteratif - Le rafinement itératif : - certaines séquences peuvent être ôtées puis réalignées pour améliorer le score Alignement non optimal

228 Les principaux algorithmes de MSA Alignement Progressive ClustalW / Clustal Omega MAFFT Kalign Probalign ProbCons (probabilistique) MSAProbs (probabilistique)

229 CLUSTAL Comparaison de séquences protéines et nucléiques Fonctionne sous de nombreuses systèmes d exploitation Le premier programme Clustal date de 1988 (Des Higgins) -> ClustalV (1992) -> ClustalW (Thompson et al, 1994) -> ClustalX (Thompson et al, 1997) -> Clustal W-X version 2 (Larkin et al, 2007) - W : Ligne de commande terminal - X : Interface graphique (GUI)

230 CLUSTAL Clustal en Webtool Nombreux miroirs :

231 CLUSTAL Remarque sur les miroirs : tous n offrent pas les mêmes paramètres et tous ne sont pas mis à jour EMBnet Expasy

232 CLUSTAL Alignement par paires Calcul des distances Arbre Guide (dendrogramme) Alignement Progressif (profils) Cette étape consomme environ 96 % du temps de calcul de Clustal Alignement progressif selon l arbre. Cet alignement est «fixé» et ne changera pas «one gap, always gap»

233 CLUSTAL Format d entrée >PYCDA07TF input_file_1 ATGCCCATACTACTCTTCTGGTAGTTGGAATGAAGCCCAAAATATGATAAAACCTTTTCT TACTAAAGTTTGTCAGGAAGTAGAAAGAATTGCTCATTGTGGAAAATGGGAAGAATGGAG TGAATGTTCTACTACTTGT >PYCDA08TR input_file_2 TATAGAAATAAAACTCCATTAAAAAATATTTTCCTTTTTCCTAATTATTTCTCTAAAATA TAACAATCTAATTCATATAATATCATTACAATCACATATATATCTCTTTAAATTTTGTTC CCTTTTTCCCTACGAGTTGTATCAGCAATAATCTCCTACAAGGTTAGACGTTGCTTCAAG TTATTTTCAACAAATTTGGTCATTTTCAGCAAATTTTGCCATTTTCAGCAAATTTTGCCA TTTTCAACAAATTTTGCCATTTTCAACAGATTTTGCCATTTTCAACAGATTTTGCCATTT TCAGCAAATTTTGCCATATTCAACAAATTTTGCCATTTTCAGCAAATTTTACCATTTTTA GCAAATTAGTATACCGTGTTAT >PYCDA09TRB input_file_3 GCGGGAATATAGAAATAAAACTCCATTAAAAAATATAAACCTTTTTTTTAATTATCACCC TAAAACATAACAATCTAATTCATATAATATCATTACAATCACATATATATCTCTTTAAAT AATGATCCCTTTTTCCCTACGAGTTGTATCAGCAATAATCTCCTACAACGGATAGACGTT GCTTCAAGTTCTTTTCAACAAATTGGGTCATTTTCAGCGAATTTTGCCATTTTCAGCAAA TTTGGCCATACTCAACAAATTTTGCCATTGGCAACAGATTTTGCCATTTTCAACAGATTT TGCCGTTGTCAGCAAATTTTGCCATATTCAACAAATTTTGCCAATCTCAGCAAATTTTAC CATTTTCAGCAAATTAGCATACCGTTTTATCATTATCGCCTTCACTAATG Fichiers avec des séquences au format FASTA : Ligne de titre précédée d un chevron > (max 200 caractères) puis Saut de ligne puis séquence

Big data et sciences du Vivant L'exemple du séquençage haut débit

Big data et sciences du Vivant L'exemple du séquençage haut débit Big data et sciences du Vivant L'exemple du séquençage haut débit C. Gaspin, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard bioinfo@genopole.toulouse.inra.fr INRA - MIAT - Plate-forme

Plus en détail

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST. Gaël Le Mahec - p. 1/12 L algorithme BLAST. Basic Local Alignment Search Tool est un algorithme de recherche

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Perl Orienté Objet BioPerl There is more than one way to do it

Perl Orienté Objet BioPerl There is more than one way to do it Perl Orienté Objet BioPerl There is more than one way to do it Bérénice Batut, berenice.batut@udamail.fr DUT Génie Biologique Option Bioinformatique Année 2014-2015 Perl Orienté Objet - BioPerl Rappels

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Plus courts chemins, programmation dynamique

Plus courts chemins, programmation dynamique 1 Plus courts chemins, programmation dynamique 1. Plus courts chemins à partir d un sommet 2. Plus courts chemins entre tous les sommets 3. Semi-anneau 4. Programmation dynamique 5. Applications à la bio-informatique

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Initiation à LabView : Les exemples d applications :

Initiation à LabView : Les exemples d applications : Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique

Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Module Analyse de Génomes 2011-2012 Master 2 module FMBS 326 Immunoinformatique Planning du Module : Date Heure Salle 12/12 9h-12h TD info TA1Z bat 25 13h-17h TD info TA1Z bat 25 13/12 9h-12h TD info TA1Z

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Manuel de formation Spaceman 1 ère journée

Manuel de formation Spaceman 1 ère journée Manuel de formation Spaceman 1 ère journée Table des Matières Présentation des barres d outils et des icônes...4 Présentation de l espace de travail...10 1 ère PARTIE : CONSTRUIRE LE MOBILIER...11 La gondole

Plus en détail

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le 10.09.

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le 10.09. SOFI Gestion+ SOFI Informatique Version 5.4 Echanges de données informatiques Spicers Sofi gestion+ Groupements Actualisé le 10.09.2004 Table des matières 1. Catalogue et tarifs... 4 1.1 Définition EDI...

Plus en détail

Cours Excel : les bases (bases, texte)

Cours Excel : les bases (bases, texte) Cours Excel : les bases (bases, texte) La leçon 1 est une leçon de base qui vous permettra de débuter avec Excel, elle sera fort utile pour les prochaines leçons. Remarque : à chaque fois qu il est demandé

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque 1 ENDNOTE X2 SOMMAIRE 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque 2. Manipuler une bibliothèque EndNote 2.1. La saisie

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information TP Numéro 2 CRÉER ET MANIPULER DES TABLEAUX (Mise en forme, insertion, suppression, tri...) 1 CRÉER UN TABLEAU 1.1 Présentation Pour organiser et présenter des données sous forme d un tableau, Word propose

Plus en détail

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques IMMUNOLOGIE La spécificité des immunoglobulines et des récepteurs T Informations scientifiques L infection par le VIH entraîne des réactions immunitaires de l organisme qui se traduisent par la production

Plus en détail

CHAPITRE IX : Les appareils de mesures électriques

CHAPITRE IX : Les appareils de mesures électriques CHAPITRE IX : Les appareils de mesures électriques IX. 1 L'appareil de mesure qui permet de mesurer la différence de potentiel entre deux points d'un circuit est un voltmètre, celui qui mesure le courant

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

LE MODELE CONCEPTUEL DE DONNEES

LE MODELE CONCEPTUEL DE DONNEES LE MODELE CONCEPTUEL DE DONNEES Principe : A partir d'un cahier des charges, concevoir de manière visuelle les différents liens qui existent entre les différentes données. Les différentes étapes de réalisation.

Plus en détail

Introduction aux bases de données: application en biologie

Introduction aux bases de données: application en biologie Introduction aux bases de données: application en biologie D. Puthier 1 1 ERM206/Technologies Avancées pour le Génome et la Clinique, http://tagc.univ-mrs.fr/staff/puthier, puthier@tagc.univ-mrs.fr ESIL,

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Note de cours. Introduction à Excel 2007

Note de cours. Introduction à Excel 2007 Note de cours Introduction à Excel 2007 par Armande Pinette Cégep du Vieux Montréal Excel 2007 Page: 2 de 47 Table des matières Comment aller chercher un document sur CVMVirtuel?... 8 Souris... 8 Clavier

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)... 3 Introduction... 3 Échelle Interactive... 4 Navigation

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2) Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2) Les indications ci-dessous ont pour objectif de guider la personnalisation

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Une ergonomie intuitive

Une ergonomie intuitive Une ergonomie intuitive Les solutions de la ligne PME offrent une interface de travail proche des usages quotidiens en informatique. Leur ergonomie intuitive facilite la prise en main du logiciel. Une

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Introduction à la présentation graphique avec xmgrace

Introduction à la présentation graphique avec xmgrace Chapitre 6 Introduction à la présentation graphique avec xmgrace Contenu 6.1 Avant-propos....................... 71 6.2 Faire un simple graphe................. 72 6.3 Un graphe avec plusieurs courbes...........

Plus en détail

SOMMAIRE. Travailler avec les requêtes... 3

SOMMAIRE. Travailler avec les requêtes... 3 Access Les requêtes SOMMAIRE Travailler avec les requêtes... 3 A) Créer une requête sélection en mode QBE... 3 B) Exécuter une requête à partir du mode Modifier (QBE)... 3 C) Passer du mode Feuille de

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

Parcours FOAD Formation EXCEL 2010

Parcours FOAD Formation EXCEL 2010 Parcours FOAD Formation EXCEL 2010 PLATE-FORME E-LEARNING DELTA ANNEE SCOLAIRE 2013/2014 Pôle national de compétences FOAD Formation Ouverte et A Distance https://foad.orion.education.fr Livret de formation

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite. Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite. Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs, relations,

Plus en détail

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons

Guide d'utilisation. OpenOffice Calc. AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons Guide d'utilisation OpenOffice Calc AUTEUR INITIAL : VINCENT MEUNIER Publié sous licence Creative Commons 1 Table des matières Fiche 1 : Présentation de l'interface...3 Fiche 2 : Créer un nouveau classeur...4

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net Your Detecting Connection Manuel de l utilisateur support@xchange2.net 4901-0128-5 ii Table des matières Table des matières Installation... 4 Conditions d utilisation de XChange 2...4 Définir vos Préférences

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance

Plus en détail

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale.

HighPush. document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale. Version du Date document 3.0 18/06/2009 Révision pour version 3.0 2.0 20/11/2008 Revision pour la 2.0 1.0 01/10/2008 Documentation initiale Commentaires 1 Table des matières 1 Introduction / Identification...

Plus en détail

Un exemple avec WORKSPACE d'interwrite

Un exemple avec WORKSPACE d'interwrite S'approprier un utilitaire de TNI Un exemple avec WORKSPACE d'interwrite Objectifs : S'approprier un utilitaire de TNI («soft»)afin de percevoir la plus-value pédagogique de l'outil. Pour cela utiliser

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Documentation Suivi S.E.O

Documentation Suivi S.E.O Documentation Suivi S.E.O Document : Projet : Documentation Outil de Suivi SEO myposeo Date : 18/02/15 Version : 1 G4interactive SAS 53, rue des deux communes 93100 Montreuil, France contact@myposeo.com

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

NOTICE D' UTILISATION CAMWORKS FRAISAGE. Luc Vallée Lycée Blaise Pascal Segré

NOTICE D' UTILISATION CAMWORKS FRAISAGE. Luc Vallée Lycée Blaise Pascal Segré NOTICE D' UTILISATION Luc Vallée Lycée Blaise Pascal Segré FRAISAGE SOMMAIRE allée Sciences et techniques Fiche n 1 - Généralités principe....page 3 Fiche n 2 - Lancer une application fraisage...page 7

Plus en détail

LibreOffice Calc : introduction aux tableaux croisés dynamiques

LibreOffice Calc : introduction aux tableaux croisés dynamiques Fiche logiciel LibreOffice Calc 3.x Tableur Niveau LibreOffice Calc : introduction aux tableaux croisés dynamiques Un tableau croisé dynamique (appelé Pilote de données dans LibreOffice) est un tableau

Plus en détail

Programme d Accès Communautaire / Atelier 4 Initiation à Microsoft Excel PLAN DE COURS 3 MICROSOFT EXCEL 4 LANCER EXCEL 4

Programme d Accès Communautaire / Atelier 4 Initiation à Microsoft Excel PLAN DE COURS 3 MICROSOFT EXCEL 4 LANCER EXCEL 4 TABLE DES MATIÈRES PLAN DE COURS 3 MICROSOFT EXCEL 4 LANCER EXCEL 4 LE COMPAGNON OFFICE 4 Masquage ou affichage du Compagnon Office 4 Sélection d un autre Compagnon 4 APPRIVOISER EXCEL 5 Exercice no 1

Plus en détail

CONFIGURATION DE L AUTOMATE SIEMENS

CONFIGURATION DE L AUTOMATE SIEMENS CONFIGURATION DE L AUTOMATE SIEMENS Créer un projet Dans le bureau de Windows, double-cliquer sur l icône «SIMATIC Manager» : Cliquer ensuite sur l icône «nouveau» : Choisir un nom de projet et valider

Plus en détail

Protocoles DHCP et DNS

Protocoles DHCP et DNS Protocoles DHCP et DNS DHCP (Dynamic Host Configuration Protocol) est un protocole qui permet à un serveur DHCP (Unix, Windows, AS400...) d'affecter des adresses IP temporaires (et d'autres paramètres)

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Tutoriel Prise en Main de la Plateforme MetaTrader 4. Mise à jour : 7/09/2009 1.6

Tutoriel Prise en Main de la Plateforme MetaTrader 4. Mise à jour : 7/09/2009 1.6 Tutoriel Prise en Main de la Plateforme MetaTrader 4 Mise à jour : 7/09/2009 1.6 Ce tutoriel de prise en main permet d utiliser les principales fonctionnalités de MetaTrader. La plateforme MetaTrader utilise

Plus en détail

Utiliser une base de données

Utiliser une base de données Access Utiliser une base de données SOMMAIRE Généralités sur les SGBD... 3 Démarrage d'access 2002... 4 Ouverture d'un fichier Access... 4 Les objets dans Access... 5 Les tables... 6 A) Ouvrir une table

Plus en détail

Excel 2010 Intermediaire

Excel 2010 Intermediaire (Enregistrez le fichier sur votre ordinateur et ouvrez-le avec Acrobat Reader) Excel 2010 Intermediaire Dans ce fichier de positionnement nous vous demandons de valider (en cochant les différentes cases)

Plus en détail

Contrôle en Cours de Formation

Contrôle en Cours de Formation Win CFA Module C.C.F. Module Contrôle en Cours de Formation *********************************************************************************** [ Documentation Technico Commerciale ] ************************************************************************************

Plus en détail

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Dans ce projet, nous allons réaliser le code qui permet d'insérer sur une image, un logo sur un

Plus en détail

Opérations de base sur ImageJ

Opérations de base sur ImageJ Opérations de base sur ImageJ TPs d hydrodynamique de l ESPCI, J. Bico, M. Reyssat, M. Fermigier ImageJ est un logiciel libre, qui fonctionne aussi bien sous plate-forme Windows, Mac ou Linux. Initialement

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Windows Internet Name Service (WINS)

Windows Internet Name Service (WINS) Windows Internet Name Service (WINS) WINDOWS INTERNET NAME SERVICE (WINS)...2 1.) Introduction au Service de nom Internet Windows (WINS)...2 1.1) Les Noms NetBIOS...2 1.2) Le processus de résolution WINS...2

Plus en détail

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots Université Toulouse 3 Paul Sabatier(UT3 Paul Sabatier) Informatique Spécialité Bioinformatique Eric AUDEMARD lundi 28 novembre 2011 Détection des duplications en tandem au niveau nucléique à l'aide de

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

SYNOLIA LE partenaire à valeur ajoutée de votre relation client

SYNOLIA LE partenaire à valeur ajoutée de votre relation client SYNOLIA LE partenaire à valeur ajoutée de votre relation client SugarCRM Pro version 5 Guide utilisateur Ergonomie Janvier 2008 Préambule Version : SugarCRM version Professional Release 5.0.0 (build 3095)

Plus en détail

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps.

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps. Cours pratique Excel Présentation du classeur cours.xls C est un classeur qui contient 7 feuilles Liste de personnes Calculs simples Solde Listes Auto Relatif Absolu Formats Paye Cours AFM Dans chacune

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription Université de Montréal Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription par Eloi Mercier Département de bioinformatique Faculté de médecine

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Faire de la déformation interactive avec GIMP

Faire de la déformation interactive avec GIMP Faire de la déformation interactive avec GIMP 1 - Option "Fichier", puis cliquer sur "Ouvrir" Nous allons créer un clin d'œil 2 - Choisir l'image à modifier en navigant dans les dossiers de l'ordinateur

Plus en détail

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 1 de 46 Algorithmique Trouver et Trier Florent Hivert Mél : Florent.Hivert@lri.fr Page personnelle : http://www.lri.fr/ hivert 2 de 46 Algorithmes et structures de données La plupart des bons algorithmes

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

CONFIGURATION DES DÉPÔTS LOCAUX GÉRÉS AGENCE DE LA SANTÉ ET DES SERVICES SOCIAUX DE L OUTAOUAIS MARTINE LESTAGE, CHARGÉE DE PROJET RÉGIONAL

CONFIGURATION DES DÉPÔTS LOCAUX GÉRÉS AGENCE DE LA SANTÉ ET DES SERVICES SOCIAUX DE L OUTAOUAIS MARTINE LESTAGE, CHARGÉE DE PROJET RÉGIONAL CONFIGURATION DES DÉPÔTS LOCAUX GÉRÉS AGENCE DE LA SANTÉ ET DES SERVICES SOCIAUX DE L OUTAOUAIS MARTINE LESTAGE, CHARGÉE DE PROJET RÉGIONAL Mise à jour mars 2014 TABLE DES MATIÈRES ONGLET ACCÉDER À SI-PMI

Plus en détail

Créer une base de données

Créer une base de données Access Créer une base de données SOMMAIRE Généralités sur les bases de données... 3 Création de la base de données... 4 A) Lancement d'access... 4 B) Enregistrement de la base de données vide... 4 Création

Plus en détail

GUIDE Excel (version débutante) Version 2013

GUIDE Excel (version débutante) Version 2013 Table des matières GUIDE Excel (version débutante) Version 2013 1. Créer un nouveau document Excel... 3 2. Modifier un document Excel... 3 3. La fenêtre Excel... 4 4. Les rubans... 4 5. Saisir du texte

Plus en détail

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier

Plus en détail

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture Excel 2007 -2- Avertissement Ce document accompagne le cours qui a été conçu spécialement pour les stagiaires des cours de Denis Belot. Le cours a été réalisé en réponse aux diverses questions posées par

Plus en détail

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé. Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé. L usage d une calculatrice est autorisé Durée : 3heures Deux annexes sont à rendre avec la copie. Exercice 1 5 points 1_ Soit f la

Plus en détail

Objets Combinatoires élementaires

Objets Combinatoires élementaires Objets Combinatoires élementaires 0-0 Permutations Arrangements Permutations pour un multi-ensemble mots sous-ensemble à k éléments (Problème du choix) Compositions LE2I 04 1 Permutations Supposons que

Plus en détail

CHAPITRE 3 LA SYNTHESE DES PROTEINES

CHAPITRE 3 LA SYNTHESE DES PROTEINES CHAITRE 3 LA SYNTHESE DES ROTEINES On sait qu un gène détient dans sa séquence nucléotidique, l information permettant la synthèse d un polypeptide. Ce dernier caractérisé par sa séquence d acides aminés

Plus en détail

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans

Plus en détail

GPS Action Replay Pro Module Régate (V 1.0 h et ultérieures)

GPS Action Replay Pro Module Régate (V 1.0 h et ultérieures) GPS Action Replay Pro Module Régate (V 1.0 h et ultérieures) Ce tutoriel a pour but d apprendre à réaliser une régate, et d appréhender les principales fonctionnalités de GPSAR Pro. Mise en place et utilisation

Plus en détail

MATHÉMATIQUES APPLIQUÉES S4 Exercices

MATHÉMATIQUES APPLIQUÉES S4 Exercices Unité D Probabilité Exercice 1 : Chemins 1. Aline habite la maison illustrée ci-dessous. Le diagramme illustre les murs et les portes. a) Combien existe-t-il de chemins possibles entre la pièce A et la

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail