Sie sind auf Seite 1von 58

Méthodes bioinformatiques pour

l’analyse des mécanismes


moléculaires associés à la
résistance aux médicaments
dans le cancer du sein
Introduction

• ER_MCF7: sensible aux médicaments

• ER_LCC2: résistante au tamoxifène

• ER_LCC9: résistante au tamoxifène et au fulvestrant


Figure : La régulation chez les eucaryotes.
Figure : Les différentes voies de signalisation des oestrogènes, adaptée
des travaux de (Heldring , 2007).
ChIP-Seq ?
• ChIP-Seq est une nouvelle technologie pour analyser les
interactions protéine-ADN.

• Combinaison de l’immunoprécipitation de la chromatine (ChIP)


avec le séquençage à haut débit (Next generation sequencing).

• Objectif : identification des motifs de liaison de la protéine


d’intérêt en alignant les interactions protéine–DNA, in vivo, à
l’échelle du génome.
ChIP-seq : workflow
Protéine liée à l’ADN ADN fragmenté Immunoprécipitation

séquençage
ADN purifié
Alignement des
séquences sur
le génome

Identification des pics

Adapted from slide set by: Stuart M. Brown, Ph.D.,


Center for Health Informatics & Bioinformatics, NYU School of Medicine
Plateformes NGS
Tableau : Avantages et mécanismes des séquenceurs (Liu, 2012).
ChIP-seq
• Le travail de laboratoire :

- l’expérience de ChIP

- Préparation des librairies

- Séquençage

Les défis bioinformatiques :


Contrôle de qualité des données de séquences brutes
Alignement rapide de ces courtes séquences (reads) sur le génome de référence
L’analyse de Pics
Détecter les Pics.
Trouver les sites de liaison exacts.
Visualisation
D’autres analyses bioinformatiques en aval
L’output des séqueuceurs: Fichiers FASTQ
Input_1.fastq.gz

Échantillon_1.fastq.gz
@ERR127302.1 HWI-EAS350_0441:1:1:1055:4898#0/1
GGCTCATCTTGAACTGGGTGGCGACCGTCCCTGGCCCCTTCTTGACACCCAGCGC
+
4=B@D99BDDDDDDD:DD?B<<=?>6B############################
@ERR127302.2 HWI-EAS350_0441:1:1:1056:1163#0/1
GAATGAGAGGCCCTCCCCGTGGAGGCATGGTATCCGGCCGAGGGGGCTTAGTCAT
+ (~ 10Gb chaque échantillon)
B?,B2,?=?1?1B?D@?:@?DB3>AD,8DD??-B?####################
@ERR127302.3 HWI-EAS350_0441:1:1:1057:13164#0/1
GGCCGCAGTGCCATTGAGCTCACCAAAATGCTCTGTGAAATCCTGCAGGTTGGGG
Fichiers contenant des informations sur le séquenceur, les séquences et les scores de qualité associés.
+
DFBH?GDEG>GEGGDHH>HBDBEGD8G<GG<DGGGCB><82???@DDBBDDGGE#
Q = -10 log_10 (p)
Où Q est la qualité et p est la
probabilité que la base soit incorrecte.
ChIPseq: “trimming” et filtrage
• Supprimer les adapteurs Illumina

• ‘’Trimmer’’ la qualité < 30


Trimmomatic uses a two-step approach to find matches between the adapters and reads. First,
Trimmomatic
short sections uses of each a two-step
adapter approach
(maximum to 16
findbp)matches
are tested between
in each thepossible
adaptersposition
and reads.
withinFirst,
the
short h If  thi s  sof
reads.sections n alignment,
or teach adaptersh k(maximum
own  as  te16 ‘seed’bp) are i tested
a perfect in each possible position
or sufficiently within the
close match,
reads.h If  thi sby
determined  sorthe
t n alignment,
seedMismatch sh kownparameter
 as  te  ‘seed’  i a perfect
(see below), or sufficiently
the entire alignmentclose match,
between the
determined
read and adapter by theisseedMismatch
scored. This two-step parameter (see below),
strategy results the entire alignment
in considerable between
efficiency the
gains,
read
sinceand
the adapter is scored.can
seed alignment Thisbe two-step
calculatedstrategy results while
very quickly, in considerable efficiencyscore
the full alignment gains,is
since the seed
calculated alignment
relatively rarely. can be calculated very quickly, while the full alignment score is
calculated relatively rarely.
The full alignment score is calculated as follows. Each matching base increases the alignment
The • alignment
scorefull
by Filtrer
0.6, whilescore lesmismatch
each is longueurs
calculated thede
as follows.
reduces Eachread
alignment matching
score ≥by32base bpBy considering
increases
Q/10. the alignmentthe
score
qualitybyof0.6, thewhile each mismatch
base calls, mismatches reduces
causedthebyalignment
read errorsscore havebylessQ/10. By considering
impact. the
A perfect match
quality
of a 12 ofbase Trimmomatic
the base calls,
sequence will uses
scoreajust
mismatches two-step
over 7,approach
caused by
while to find
read25errors
bases arematches
have between
less impact.
needed to theAsadapters
A perfect
score 15. such and reads. First,
match
of 12 baseshort
wearecommend sections
sequence
values will of
score
of between eachjust7adapter
15 as7,(maximum
-over while
the 25 bases
threshold 16valuebp) aresimple
are needed
for tested in each
to score possible
15. As
alignment such . position within the
mode.
we recommend reads. h If  thi ofs  sbetween
values or t n a lignment,
7 - 15 assh the
kown  a s  te value
threshold  ‘ seed’for i simple
a perfect or sufficiently
alignment mode. . close match,
For palindromic Trimmomatic
matches, a longer uses aalignment
two-step approach
is possible, to asfind matchesabove.
described between thisusadellab.org
the adapters
Therefore and reads. First,
QC des séquences brutes (le contenu de base par position)
Tableau : exemple d’outils pour l‘évaluation de la qualité et traitement de reads (Pabinger, 2013)
ChIP-seq
• Le travail de laboratoire :

- l’expérience de ChIP

- Préparation des librairies

- Séquençage

Les défis bioinformatiques :


Contrôle de qualité des données de séquences brutes
Alignement rapide de ces courtes séquences (reads) sur le génome de référence
L’analyse de Pics
Détecter les Pics.
Trouver les sites de liaison exacts.
Visualisation
Milliers de régions enrichies
D’autres analyses bioinformatiques en aval
Alignement rapide des courtes séquences (reads) sur le
génome de référence

• L’alignement des reads présente plusieurs défis:


– Aligner des millions de courts reads à un génome
– Génome = texte avec des milliards de lettres .
– Plusieurs régions d’alignement sont possibles
– Pas de matching exact : des erreurs de séquençage et des variantes
biologiques (substitutions, insertions, délétions, épissage)
Alignement rapide des courtes séquences (reads) sur le
génome de référence
• Méthodes d’alignement
– Doivent permettre des mismatches et des gaps
• Erreurs de séquençage
• SNP
• Erreur de lecture

– Indexation et hachage
• génome
• Reads

– L’utilisation intelligente du Burrows-Wheeler Transform augmente la


vitesse et réduit l’empreinte mémoire.

• Utilisation des scores de qualité


• Utilisation des connaissances SNP
• Performance
– Partitionner le génome ou les reads
Tableau : exemples de logiciels d‘alignement (Pabinger, 2013)
Figure : Schéma d'une stratégie d'alignement basée sur la table de hachage
(Flicek, 2009) .
Figure 12 : La transformation de Burrows-Wheeler pour les données des séquences génomiques.
Figure : Algorithmes de MAQ (Spaced seeds) et Bowtie (Burrows-Wheeler) (Trapnell, 2009)
• Le choix d'un logiciel d'alignement

- la plateforme de séquençage,
- le besoin de vitesse,
- les ressources machines.
ChIP-seq
• Le travail de laboratoire :

- l’expérience de ChIP

- Préparation des librairies

- Séquençage

Les défis bioinformatiques :


Contrôle de qualité des données de séquences brutes
Alignement rapide de ces courtes séquences (reads) sur le génome de référence
L’analyse de Pics
Détecter les Pics.
Trouver les sites de liaison exacts.
Visualisation
Milliers de régions enrichies
D’autres analyses bioinformatiques en aval
L’identification de Pics ‘’peak calling’’

Figure : Illustration dans UCSC des reads sens(orange) et antisens (bleu) alignés ainsi
que la région du chevauchement (noir). Le pic est juste en amont du premier exon
localisé et diffuse sur le motif de liaison FOXA3 prédit (Anjali Shah, 2009).
Figure : Les fragments ADN provenant de l’expérience de l’ immunoprécipitation de la
chromatine sont séquencés de leur extrémité 5′. L’alignement de ces tags sur le génome
produit deux pics (un sur chaque brin) qui flanque le site de liaison de la protéine d’intérêt
(FT). (Park, 2009)
Comment les ‘’peak-finders’’ trouvent les
sites de liaison ?
•Les fragments contiennent le site
de liaison du TF à une position
aléatoire.

•Les reads sont les extrémités 3’ ou 5’


(sens ou antisens) des fragments.

•Ainsi le pic pour les tags sens sera à la


1/2 de la longueur du fragment en
amont …

•La position du site de liaison = mi-


chemin entre le pic des tags sens et pic
des tags antisens.

•Pour obtenir le pic du site de liaison , il


faut un déplacement vers l’aval d’une
distance ½ de la taille du fragment et
vers l’amont dans l’autre sens avec la • Adapted from slide set by: Stuart M. Brown, Ph.D., Center for Health Informatics
& Bioinformatics, NYU School of Medicine & from Jothi, et al. Genome-wide
même distance. identification of in vivo protein–DNA binding sites from ChIP-Seq data. NAR
(2008), 36: 5221-31
Figure 15 : Schéma de la modélisation des pics pour une expérience Chip-Seq.
Table 8 : Exemples de ''peak callers'' employés dans ChIP-seq (Bailey, 2013)

Figure: Programmes de ''peak calling'' sélectionnés pour évaluation. (willibanks, 2010).


Les mesures de qualité
• FDR : empirique ou de modèle estimé

- empirique = nbre de pics contrôles passant un cut-off/


nbre de pics ChIP-Seq passant le même cut-off

- de modèle estimé : calculé par permutation ou


échantillonnage aléatoire

• Le fold change = le ratio du nombre de reads, dans la région


du pic, entre l’échantillon ChIP-Seq et celui du contrôle.
ChIP-seq
• Le travail de laboratoire :

- l’expérience de ChIP

- Préparation des librairies

- Séquençage

Les défis bioinformatiques :


Contrôle de qualité des données de séquences brutes
Alignement rapide de ces courtes séquences (reads) sur le génome de référence
L’analyse de Pics
Détecter les Pics.
Trouver les sites de liaison exacts.
Visualisation
Milliers de régions enrichies
D’autres analyses bioinformatiques en aval
Visualisation

Figure: Une image du navigateur de génome UCSC des enrichissements ChIP de NF-kB et de
H3K79me2 dans la lignée cellulaire lymphoblastoïde GM12878 de l'humain à partir des
données ENCODE.
ChIP-seq
• Le travail de laboratoire :

- l’expérience de ChIP

- Préparation des librairies

- Séquençage

Les défis bioinformatiques :


Contrôle de qualité des données de séquences brutes
Alignement rapide de ces courtes séquences (reads) sur le génome de référence
L’analyse de Pics
Détecter les Pics.
Trouver les sites de liaison exacts.
Visualisation
Milliers de régions enrichies
D’autres analyses bioinformatiques en aval
Exemple: analyse des séquences
1- Recherche de motifs surreprésentés:

• MEME (Bailey, 2006)


• CEAS (Xuwo, 2006)
• Cis-Finder (Sharov, 2009)
• GADEM (Li, 2009)
• Weeder (Pavesi, 2007)
• FlexModule (Thomson, 2003)
Figure 18: PWM, construite à partir d'un alignement multiple local avec peu de gap, comme le
modèle basique de TFBS.
2- Identification des motifs :

• TOMTOM (Gupta, 2007)

• STAMP(MAHONY, 2007)
Problématique
Figure : Pipeline de l’approche proposée
SAM/BAM
échantillon1.bam
SRR013667.1 99 19 8882171 60 76M =
8882214 119
échantillon2.bam
NCCAGCAGCCATAACTGGAATGGGAAATAA
ACACTATGTTCAAAG
SRR013667.1 99 19 8882171 60 76M =
8882214 119
~ 10Gb chaque bam
NCCAGCAGCCATAACTGGAATGGGAAATAA
ACACTATGTTCAAAG

•Utilisé pour stocker les alignements


•SAM = texte, BAM = binaraire

Bases
Base
Qualities
Le format BAM/SAM
Sort, View, Index, Statistics, Etc.

samtools.sourceforge.net

picard.sourceforge.net
ChiP-Seq: Alignement
Étape d’analyse primaire
•Trimming et clipping des adaptateurs : déjà fait.

•Alignement: outil utilisé BWA

•Filtration des Bams (les modifications post-alignement)


- Tri des Bams: picard/SortSam.jar (par ordre numérique selon position)
- Indexation des Bams : samtools index (des outils exigent des Bam.bai)
- Filtration des reads alignés : samtools view (les reads alignés avec une
valeur inférieure au seuil de qualité fourni)
- Marquage des doublons: Picard/MarkDuplicate (les outils en aval
reconnaissent le flag et n’utiliseront pas ces reads marqués)
Homer - QC et tags
• Homer transforme les séquences alignées en une platforme de structure de données indépendente représentant l’expérience.

Figure : Trois mesures de qualité (l'auto-correlation des ―tags‖ le biais de séquence et le biais
GC) obtenues à l'aide du logiciel HOMER
Les Fichiers générés avec
MACS2:
• designName.diag.macs.out
• designName_model.r
• designName_peaks.bed
• designName_peaks.encodePeak
• designName_peaks.xls,
• designName_summits.bed
Étape d’analyse quantitative et catégorisation des pics
-Calcul de la densité des reads

Figure : Description de la création d‘un fichier de densité WIG (source UCSC)


-1- Conservation des pics

On a déterminé:

Ensemble de pics de haute qualité (FDR < =


1%) (macs_picsconfiance.txt)
Ensemble de régions enrichies (p-value <
10^-5) (macs_regionenrichie.text)
Ensemble de pics contrôle (macs_control.txt)

On fait les intersections en respectant une


règle: le sommet du pic doit chevaucher la
région avec l’enrichissement non aléatoire . (Bardet, 2011).

L’expérience est A vs B mais aussi B vs A


-2- Analyse quantitative

Déterminer les régions enrichies : en étendant de chaque côté du sommet d’un


pic de la moitié de la longueur moyenne des fragments. (région de pic).

On fusionne par la suite toutes les régions de pics dans les différentes conditions
en faisant l’union des coordonnées chromosomiques.

Pour chaque région , on assigne le nombre de lectures correspondant à la même


position dans le fichier de densité généré avant.

On normalise ce nombre par rapport au nombre total de reads alignés dans


chaque échantillon ( = score pour chaque région de pic)
Changements quantitatifs
Les différences entre les hauteurs de pics en termes de
‘’fold change’’ log2

On a assigné les différentes régions à une catégorie sur la


base de la variation de la densité des lectures normalisée.

- Catégorie invariants (-2 fold < score < 2 fold).


- Catégorie croissants (score > 2 fold).
- Catégorie décroissants (score < -2 fold).
HOMER – annotation outputs
Les fichiers générés pour chaque conception:
• designName.annotated.csv

• geneOntology.html
• GenomeOntology.html
HOMER - Motifs
• L’analyse de motif de Novo et connus:
– Il tente d'identifier les éléments de régulation qui
sont spécifiquement enrichis dans un ensemble par
rapport à un autre.
– Il utilise la notation ZOOPS(occurrence zéro ou
un par séquence) couplé avec les calculs
d'enrichissement hypergéométriques (ou binômial)
pour déterminer l'enrichissement de motif.
– Il tente également de tenir compte du biais de
séquence dans l'ensemble de données.
http://biowhat.ucsd.edu/homer/motif/index.html
HOMER – Motifs output
• Les fichiers générés pour chaque conception:
– homerResults.html
– knownResults.html

http://biowhat.ucsd.edu/homer/ngs/peakMotifs.html
Quelques résultats
Tableau : Statistiques de l'alignement des lectures et le nombre de pics (FDR 1%)
identifiés dans chacune des trois lignées cellulaires du cancer du sein et leur
repliquats.
Figure : Les diagrammes de Venn des ensembles de pics identifiés à partir des
deux réplicas individuelles au même cut-off pour le peak calling dans les cellules
MCF7, LCC2 et LCC9. Une large intersection indique une haute cohérence entre
les réplicas (> 50%).
Figure : Le nombre de site de liaisons partagées entre deux conditions .
1606 régions génomiques (sites)
qui avaient significativement plus
d'intensité de liaison de ERa dans
les cellules résistantes LCC2 par
rapport aux cellules MCF7
sensibles aux médicaments, et
2249 régions avec plus d'intensité
de liaison ER dans les cellules
sensibles MCF7 par rapport aux
cellules LCC2 résistantes
Figure : Les motifs consensus identifiés dans les sites de liaison ERE.
(a) ERE canonique trouvé dans la recherche de motifs connu. (b) et (c) deux
exemples de motifs consensus, similaire au ERE canonique, identifié dans la
recherche de novo.
Tableau : Liste des motifs sur-représentés présents dans nos trois conditions
avec le pourcentage des séquences cibles contenant ces motifs
Conclusion

• C’est le nombre des événements de liaison identifiés, leur localisation et


l'intensité des pics au niveau des sites qui diffèrent entre les cellules sensibles et
les cellules résistantes aux médicaments.

• Plusieurs nouveaux sites sont identifiés et sont en cours de validation.

Das könnte Ihnen auch gefallen