Beruflich Dokumente
Kultur Dokumente
séquençage
ADN purifié
Alignement des
séquences sur
le génome
- l’expérience de ChIP
- Séquençage
Échantillon_1.fastq.gz
@ERR127302.1 HWI-EAS350_0441:1:1:1055:4898#0/1
GGCTCATCTTGAACTGGGTGGCGACCGTCCCTGGCCCCTTCTTGACACCCAGCGC
+
4=B@D99BDDDDDDD:DD?B<<=?>6B############################
@ERR127302.2 HWI-EAS350_0441:1:1:1056:1163#0/1
GAATGAGAGGCCCTCCCCGTGGAGGCATGGTATCCGGCCGAGGGGGCTTAGTCAT
+ (~ 10Gb chaque échantillon)
B?,B2,?=?1?1B?D@?:@?DB3>AD,8DD??-B?####################
@ERR127302.3 HWI-EAS350_0441:1:1:1057:13164#0/1
GGCCGCAGTGCCATTGAGCTCACCAAAATGCTCTGTGAAATCCTGCAGGTTGGGG
Fichiers contenant des informations sur le séquenceur, les séquences et les scores de qualité associés.
+
DFBH?GDEG>GEGGDHH>HBDBEGD8G<GG<DGGGCB><82???@DDBBDDGGE#
Q = -10 log_10 (p)
Où Q est la qualité et p est la
probabilité que la base soit incorrecte.
ChIPseq: “trimming” et filtrage
• Supprimer les adapteurs Illumina
- l’expérience de ChIP
- Séquençage
– Indexation et hachage
• génome
• Reads
- la plateforme de séquençage,
- le besoin de vitesse,
- les ressources machines.
ChIP-seq
• Le travail de laboratoire :
- l’expérience de ChIP
- Séquençage
Figure : Illustration dans UCSC des reads sens(orange) et antisens (bleu) alignés ainsi
que la région du chevauchement (noir). Le pic est juste en amont du premier exon
localisé et diffuse sur le motif de liaison FOXA3 prédit (Anjali Shah, 2009).
Figure : Les fragments ADN provenant de l’expérience de l’ immunoprécipitation de la
chromatine sont séquencés de leur extrémité 5′. L’alignement de ces tags sur le génome
produit deux pics (un sur chaque brin) qui flanque le site de liaison de la protéine d’intérêt
(FT). (Park, 2009)
Comment les ‘’peak-finders’’ trouvent les
sites de liaison ?
•Les fragments contiennent le site
de liaison du TF à une position
aléatoire.
- l’expérience de ChIP
- Séquençage
Figure: Une image du navigateur de génome UCSC des enrichissements ChIP de NF-kB et de
H3K79me2 dans la lignée cellulaire lymphoblastoïde GM12878 de l'humain à partir des
données ENCODE.
ChIP-seq
• Le travail de laboratoire :
- l’expérience de ChIP
- Séquençage
• STAMP(MAHONY, 2007)
Problématique
Figure : Pipeline de l’approche proposée
SAM/BAM
échantillon1.bam
SRR013667.1 99 19 8882171 60 76M =
8882214 119
échantillon2.bam
NCCAGCAGCCATAACTGGAATGGGAAATAA
ACACTATGTTCAAAG
SRR013667.1 99 19 8882171 60 76M =
8882214 119
~ 10Gb chaque bam
NCCAGCAGCCATAACTGGAATGGGAAATAA
ACACTATGTTCAAAG
Bases
Base
Qualities
Le format BAM/SAM
Sort, View, Index, Statistics, Etc.
samtools.sourceforge.net
picard.sourceforge.net
ChiP-Seq: Alignement
Étape d’analyse primaire
•Trimming et clipping des adaptateurs : déjà fait.
Figure : Trois mesures de qualité (l'auto-correlation des ―tags‖ le biais de séquence et le biais
GC) obtenues à l'aide du logiciel HOMER
Les Fichiers générés avec
MACS2:
• designName.diag.macs.out
• designName_model.r
• designName_peaks.bed
• designName_peaks.encodePeak
• designName_peaks.xls,
• designName_summits.bed
Étape d’analyse quantitative et catégorisation des pics
-Calcul de la densité des reads
On a déterminé:
On fusionne par la suite toutes les régions de pics dans les différentes conditions
en faisant l’union des coordonnées chromosomiques.
• geneOntology.html
• GenomeOntology.html
HOMER - Motifs
• L’analyse de motif de Novo et connus:
– Il tente d'identifier les éléments de régulation qui
sont spécifiquement enrichis dans un ensemble par
rapport à un autre.
– Il utilise la notation ZOOPS(occurrence zéro ou
un par séquence) couplé avec les calculs
d'enrichissement hypergéométriques (ou binômial)
pour déterminer l'enrichissement de motif.
– Il tente également de tenir compte du biais de
séquence dans l'ensemble de données.
http://biowhat.ucsd.edu/homer/motif/index.html
HOMER – Motifs output
• Les fichiers générés pour chaque conception:
– homerResults.html
– knownResults.html
http://biowhat.ucsd.edu/homer/ngs/peakMotifs.html
Quelques résultats
Tableau : Statistiques de l'alignement des lectures et le nombre de pics (FDR 1%)
identifiés dans chacune des trois lignées cellulaires du cancer du sein et leur
repliquats.
Figure : Les diagrammes de Venn des ensembles de pics identifiés à partir des
deux réplicas individuelles au même cut-off pour le peak calling dans les cellules
MCF7, LCC2 et LCC9. Une large intersection indique une haute cohérence entre
les réplicas (> 50%).
Figure : Le nombre de site de liaisons partagées entre deux conditions .
1606 régions génomiques (sites)
qui avaient significativement plus
d'intensité de liaison de ERa dans
les cellules résistantes LCC2 par
rapport aux cellules MCF7
sensibles aux médicaments, et
2249 régions avec plus d'intensité
de liaison ER dans les cellules
sensibles MCF7 par rapport aux
cellules LCC2 résistantes
Figure : Les motifs consensus identifiés dans les sites de liaison ERE.
(a) ERE canonique trouvé dans la recherche de motifs connu. (b) et (c) deux
exemples de motifs consensus, similaire au ERE canonique, identifié dans la
recherche de novo.
Tableau : Liste des motifs sur-représentés présents dans nos trois conditions
avec le pourcentage des séquences cibles contenant ces motifs
Conclusion