Les bases de données transcriptionnelles en ligne
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
Quelques bases de données
base de donnée commerciale (licence payante publique gratuite 800 1600 ) + version
Qualité des sites Transfac 12000 10000 8000 6000 4000 2000 0 1 2 3 4 5 6 Scores de qualité 1 : Functionally confirmed factor binding site 2: Binding of pure protein (purified or recombinant) 3: Immunologically characterized binding activity of a cellular extract 4: Binding activity characterized via a known binding sequence 5: Binding of uncharacterized extract protein to a bone fide element 6: No quality assigned
Recherche E2F dans Transfac publique classification interacteurs matrices
Recherche E2F dans Transfac publique sites de fixation références
3 Matrices E2F Transfac quelles différences?
[Sandelin A, Alkema W, Engstrom P, Wasserman WW, Lenhard B.] alternative open-source à Transfac taille plus réduite: 459 matrices (oct. 2009) Répartition taxonomique des matrices Origine des données JASPAR 160 200 140 180 160 in vitro 120 140 100 120 80 100 80 60 60 in vivo 40 40 20 20 0 g fun v i eb e rt es ra t in ts sec es nts te s d a a l o t d p r ma ho c ne o ur 0 PB M I q A D ip E X al 1H A se L -se PILE MS ip-ch p E i i E r N S D M Ch cte Ch CO ba essentiellement des données in-vitro, donc pas de gène cible!
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
E2F dans Jaspar
But: standardiser et centraliser les informations sur la régulation transcriptionnelle inclut certaines bases de données mise en place d'une architecture unifiée: tout le monde peut mettre ses données dans PAZAR et les rendre publiques ou non... open-access et open-source (TRANSFAC n'en fait pas partie) standards GFF (localisation génomique) et XML
aucun gène cible aucun facteur de transcription spécifique d'un gène cible ("gene centric") spécifique d'un FT ("TF centric")
E2F dans PAZAR
Navigateur UCSC target gene
[ Griffith OL et al.] Idée: aller chercher les informations dans la littérature scientifique Comment? en mettant à contribution la communauté scientifique Oreganno met à disposition des curateurs un corpus d'articles scientifiques soumis par des experts identifiés par des approches de text-mining automatiques (recherche de mots typiques comme "transcription factor", "binding site",...)
Oreganno inclut également des données provenant d'autres projets à grande échelle
E2F dans Oreganno site de fixation polymorphisme
Différents concepts en régulation transcriptionnelle sites de fixation - in vitro/vivo? - quelle technique? - degré de confiance? facteur de transcription TTGATGTCTCC AGTAATGCGACCATTAC ACCCATTTGGCTTCCCATTTCGA TATCAATTAG ACCCAATTAGTAATAAAT - structure? - classe? - orthologues? matrice - fréq. / poids-position? - type de correction? A 1 1 6 0 7 7 6 5 C 2 5 0 0 0 0 0 0 G 0 1 1 0 0 0 0 1 T 4 0 0 7 0 0 1 1 gène(s) cible(s) module cis-régulateur - taille/position génomique? TF présents? technique expérimentale utilisée? gène cible?
[Gallo, S. M., Li, L., Hu, Z. and Halfon, M. S] base de données de modules cis-régulateurs et de TFBS chez la drosophile CRM sans TFBS CRM avec TFBS
Take home messages nombreuses bases de données, contenant différents types d'information information généralement parcellaire: TF mais pas de gène cible, CRM sans TF, etc... les matrices des différentes bases de données sont souvent différentes: impact de cette différence? attention à l'origine des données: in-vivo, in-vitro, in-silico