Biochimej Univ Angers FR Page2 COURS 7RelStructFonction 3Str

Détermination et prédiction des structures des protéines
Like 19 Tweeter Share
4. La mécanique et la modélisation moléculaires

1. Introduction
5. Les méthodes "ab initio"
2. Classifications hiérarchiques des structures des protéines
a. Introduction
3. Les techniques pour déterminer - analyser les structures des
b. Démarche "Template-based modeling"
protéines
c. Description schématique de la démarche "Template-
a. La diffraction des rayons X based modeling"
b. La résonance magnétique nucléaire d. Démarche "de novo protein design" - Rosetta
c. La cryo-microscopie électronique e. Exemple de la protéine "artificielle" TOP7 (2003)
d. Autres techniques moins fréquemment utilisées
6. Liens Internet et références bibliographiques
1. Introduction
Les protéines se replient dans l'espace pour adopter une structure tridimensionnelle native unique qui leur confère leur propriétés biologiques.
Il y a un grand nombre, mais qui semble fini, de repliements des protéines observés dans la nature. On en comptabilise environ 1400 (selon
les modes de classification et les bases de données).
La figure ci-dessous montre le nombre de nouveaux repliements au cours du temps.
Create PDF in your applications with the Pdfcrowd HTML to PDF API PDFCROWD
Source : PDB
On constate qu'aucun nouveau repliement n'a été mis en évidence depuis 2009 : 1393 repliements ont été comptabilisés en novembre 2017
dans la Protein DataBank (PDB). Celà tend à démontrer qu'il n'existe qu'un nombre fini de repliements.
De plus, ce chiffre semble relativement modeste en regard des combinaisons quasi infinies de chaînes polypeptidiques "théoriques" (mais
dont le nombre dans la nature est limité par les séquences des gènes des génomes).
On ne sait pas si les structures non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le
processus évolutif ou caractérisées par les biologistes structuraux.
Remarque : certaines protéines sont dites intrinsèquement non structurées et certaines nécessitent une aide au repliement par des protéines
chaperonnes. Quoi qu'il en soit, ces protéines adoptent à un moment ou un autre une structure tridimensionnelle unique.
a. Les 3 grands types de protéines
α. Les protéines fibreuses : ce sont des protéines allongées dont les éléments de structure secondaire sont les structures dominantes.
Exemple : la kératine.
β. Les protéines membranaires :
elles sont enchâssées dans la bicouche lipidique et la traversent ou elles sont fixées à l'un des feuillets.
ces protéines sont de formes et de tailles très diverses.
leurs structures sont regroupées en 2 grandes catégories : toute α ("all helical structures") comme la bactériorhodopsine ou toute β ("all
beta structures") comme les porines.
γ. Les protéines globulaires :
elles ont des séquences en acides aminés non répetitives. Elles ont des tailles de 100 à plusieurs centaines d'acides aminés et
adoptent une structure compacte.
les chaînes latérales des acides aminés non polaires ont tendance à être enfouis et à constituer le "coeur" hydrophobe. Les chaînes
latérales des acides aminés polaires ou chargés (hydrophiles) ont tendance à être à la surface de la protéine et accessibles au solvant.
les brins β sont en général appariés de manière parallèle ou anti-parallèle et forment des feuillets β.
en moyenne, 25% des acides aminés sont impliqués dans la formation d'hélices, 25% dans la formation de feuillets et 50% adoptent
des arrangements structuraux moins ordonnées / réguliers.
b. Terminologies liées aux structures des protéines
Domaines : ce sont des unités fonctionnelles et/ou structurales distinctes des protéines. Ils sont en général responsables d'une fonction ou
d'une interaction particulière et contribuent à la fonction de la protéine.
Les domaines peuvent en général se replier de manière indépendante.
Figure ci-dessous : les motifs répétés "Leucine-rich repeat" (LRR) du domaine N-terminal de RanGAP1 ("Ran GTPase-activating protein 1").
Type de repliement : superhélice [β-α] de pas droit ("right-handed beta-alpha superhelix").
Source : SCOP
Motif ("motif") :
1ère définition : courtes séquences d'acides aminés caractérisées par des liaisons hydrogène entre certains de ces acides aminés et
des valeurs spécifiques des angles de torsion de la liaison peptidique (angles Φ, Ψ et ω). Voir le tableau ci-dessous.
2ème définition : association de plusieurs éléments de structure secondaire assurant une fonction biologique particulière. Exemple :
fixation du NAD+ par le pli Rossmann.
Courts motifs (2 à 6 acides aminés) stabilisés par des liaisons hydrogène, trouvés dans les protéines
alpha-beta-motif asx-motif
Exemple de définition : motif α-β (figure ci-dessous)
asx-turn-iL asx-turn-iR
asx-turn-iiL asx-turn-iiR
beta-bulge -----------
beta-bulge-loop-5 beta-bulge-loop-6
beta-turn-iL beta-turn-iR
beta-turn-iiL beta-turn-iiR
gamma-turn-classic gamma-turn-inverse Motif fréquent dans les hélices α en position C- et N-terminales. Les motifs α-β de
nest-LR nest-RL pas gauche sont rares.
niche-3R niche-3L Caractéristiques structurales :
niche-4L niche-4L
motif de 5 résidus d'acides aminés consécutifs avec 2 liaisons hydrogène
schellmann-loop-6 schellmann-loop-7 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu
i+3
st-staple st-motif 1 liaison hydrogène entre le groupe CO du résidu i et le groupe NH du résidu
st-turn-iL st-turn-iR i+4
les angles Φ des résidus (i+1), (i+2) et (i+3) sont négatifs
st-turn-iiL st-turn-iiR
PDBeMotif: interface Web pour la recherche de motifs selon divers critères dans les protéines de la PDB.
Patron ("pattern") : courte séquence en acides aminés essentiels à la fonction d'une protéine (site de fixation, site actif, ...). Ils sont mis en
évidence par alignements multiples de séquences de protéines ayant des fonctions comparables. Si les séquences des "pattern" ne sont pas
exactes, on les exprime sous forme d'expression régulière (exemple : [FY]-x-E-x(4)-{ILV}).
Empreinte ("fingerprints") : ensemble de courts motifs conservés (mis en évidence par alignements multiples de séquences).
c. La "Protein DataBank"
La base de données mondiale recueil des structures tri-dimensionnelles des macromolécules biologiques est la Protein DataBank (PDB).
Elle contient plus de 131.000 structures de protéines, d'acides nucléiques (ADN et ARN) et de complexes ribonucléoprotéiques, déterminées
par différentes techniques :
cristallographie - diffraction des rayons X : plus de 117 000 structures

résonance magnétique nucléaire : plus de 12 000 structures
cryo-microscopie électronique (technique la plus récemment utilisée) : plus de 1600 structures
Les 10 organismes les plus représentés sont : Homo sapiens, Escherichia coli, Mus musculus, Saccharomyces cerevisiae, Bos taurus, Gallus
gallus, Sus scrofa, Thermus thermophilus, ...
2. Classifications hiérarchiques des structures des protéines
La base de données SCOP ("Structural Classification of Proteins") - MRC Laboratory of Molecular Biology - Cambridge - Angleterre
Sa classification est basée sur la similarité des structures et des séquences en acides aminés des domaines structuraux des protéines.
L'unité de classification est le domaine d'une protéine. Pour les auteurs de cette classification, la définition de domaine SCOP se base sur le
fait que les petites protéines ne contiennent généralement qu'un domaine.
Exemple : l'hémoglobine (structure α2β2) est considérée comme ayant 2 domaines SCOP, un domaine α et un domaine β.
Attention : ici la terminologie "α" et "β" n'a rien à voir avec une hélice α ou un feuillet β.
Les niveaux de la classification SCOP :
1. classe ("Class") : type de repliements ("folds"). Les classes de SCOP sont : toute alpha / toute beta / alpha et beta (a/b - mélangé) /
alpha plus beta (a+b - séparé) / protéines multi-domaines / protéines membranaires / petites protéines / "coiled coil proteins" / structures
de protéines de faibles résolution protein / peptides / protéines "artificielles" ("de novo designed proteins").
2. repliement ("Fold") : les différentes formes des domaines au sein d'une classe. Exemple : "TIM beta/alpha-barrel".
3. superfamille ("Superfamily") : les domaines qui adoptent un type de repliement sont regroupés en superfamilles qui possèdent au moins
un ancêtre structural commun distant. Exemple : triosephosphate isomérase, phosphate aldolase.
4. superfamille ("Family") : les domaines au sein d'une superfamille sont regroupés en familles qui possèdent un ancêtre structural
commun plus récent.
5. domaine protéique ("Protein domain") : les domaines au sein d'une famille sont regroupés en domaines protéiques qui sont
essentiellement la même protéine.
6. espèce ("Species") : les domaines protéiques sont regroupés selon les espèces.
7. domaine ("Domain") : partie d'une protéine. Pour les protéine simples, celà peut être la protéine en entier.
Exemple de classification SCOP (les liens renvoient vers les données au niveau hiérarchique considéré de la classification) :
Root: SCOP 1.75A

Class c: Alpha and beta proteins (a/b) [51349] (147 folds)
Fold c.10: Leucine-rich repeat, LRR (right-handed beta-alpha superhelix) [52046] (3 superfamilies)
Superfamily c.10.1: RNI-like [52047] (3 families)
Family c.10.1.2: Rna1p (RanGAP1), N-terminal domain [52052] (1 protein)
Protein Rna1p (RanGAP1), N-terminal domain [52053] (1 species)
Species Fission yeast (Schizosaccharomyces pombe) [52054] (4 PDB entries)
Comparaison des terminologies SCOP et CATH ("Class Architecture Topology Homology")
SCOP : > 1200 repliements (Juin 2017) Base de données CATH
Classe : essentiellement alpha, essentiellement beta,

Classe
(alpha/beta) mélangé
Exemple de classes de protéines et nombre de repliements
protéines toute alpha : 289 repliements

protéines toute beta : 177 repliements Architecture : classification selon la conformation globale, en
protéines alpha et beta (a/b - mélangé) : 148 repliements ignorant toute connectivité
protéines alpha plus beta (a+b - séparé) : 385 repliements
protéines multi-domaines : 69 repliements
protéines et peptides membranaires : 59 repliements
Topologie ("Topology") : groupes de repliements (forme et

Superfamille
connectivité)
Famille Superfamille homologue ("Homologous Superfamily")
Domaines : définition manuelle Domaines : définition automatique
Bases de données liées à SCOP
SuperFamily : base de données d'annotation ("Hidden Markov models") structurale et fonctionnelle des protéines.
Astral : "databases and tools useful for analyzing protein structures and their sequences".
Les autres bases de données de classification
SMART : "Small motif database" / PRODOM : "Protein domain database" / InterPro : "Databases of protein families and domains" /
HOMSTRAD : "Homologous structure alignment database"
Exemples de programmes et de serveurs d'alignement de structures
SSAP ("Sequential Structure Alignment Program") / DALI / STRUCTAL ("Structural Alignment Server") / VAST ("Vector Alignment Search
Tool" - NCBI) / LSQMAN / SSM ("PDBeFold").
3. Les techniques pour déterminer - analyser les structures des protéines
Il n'y a pas une technique meilleure qu'une autre. Elles ont toutes leur spécificité avec leurs avantages et leurs inconvénients.
Les meilleurs modèles structuraux de macromolécules biologiques ou de complexes biologiques résultent de combinaisons de données
obtenues par plusieurs de ces techniques.
a. La diffraction des rayons X
Voir le principe de la diffraction des rayons X.
L'histoire raconte qu'en skiant dans les Alpes en 1912, le physicien allemand Max von Laue énonça à ses collègues une idée novatrice : il
postulait que les rayons X en passant au travers d'un cristal seraient réfléchis par les centres atomiques du réseau cristallin et interfèreraient
entre eux pour créer un diagramme de diffraction.
Source : N. Jones (2014)
L'idée de von Laue était correcte et en 1914, il a reçu le prix Nobel de physique « pour sa découverte de la diffraction des rayons X par les
cristaux ».
En 2012, on a fêté le 100ème anniversaire de la loi énoncée par Lawrence Bragg : n . λ = 2 d sin θ.
Figure ci-dessous : image radiographique de l'ADN obtenue en 1952 par Rosalind Franklin (appelée photo 51). Ces photographies ont été
déterminantes pour l'élucidation de la structure en double hélice de l'ADN par J. Watson, F. Crick, et M. Wilkins en 1953 (Prix Nobel en 1962).
Source : King's College London
R. Lefkowitz & B. Kobilka ont reçu le prix Nobel de Chimie en 2012 pour leurs travaux sur la détermination de la structure des RCPG.
La cristallographie étudie les macromolécules sous forme cristalline à l'échelle atomique : c'est actuellement la technique la plus résolutive qui
peut être inférieure à 1 Å.
Source : Wikipedia
L'état cristallin est défini par un caractère périodique et ordonné à l'échelle atomique ou moléculaire. Ce caractère périodique est appelé la
maille élémentaire.
La cristallogénèse est la formation d'un cristal, soit en milieu naturel, soit de façon expérimentale. C'est le passage d'un état désordonné
liquide à un état ordonné solide, contrôlé par la température, la pression, le temps d'évaporation et des lois cinétiques complexes :
1ère phase : la germination correspond à l'apparition d'une phase cristalline stable à partir d'un liquide surfondu ou d'une solution
sursaturée
2ème phase : la croissance est le processus qui va suivre la germination et permettre l'augmentation de taille des germes pour conduire
aux cristaux
Des automates permettent maintenant de tester en parallèle des centaines de conditions physico-chimiques de cristallogénèse.
La plupart des substances minérales et des petites molécules organiques cristallisent facilement et les cristaux obtenus sont en général sans
défaut.
En revanche les macromolécules biologiques, comme les protéines (a fortiori les protéines membranaires), sont souvent très difficiles à
cristalliser.
Techniques de pointe pour générer des rayons X :
XFELs : "X-ray free-electron lasers"

"Third-generation synchrotrons" ou "undulator-based storage rings"
"Femtosecond X-ray protein nanocrystallography" : les impulsions des rayons X issus des systèmes XFELs sont extrêmement intenses
et détruisent complètement les molécules et les cristaux. Mais ces impulsions n'ayant une durée que de 1 femtoseconde (10-15
seconde), des diagrammes de diffraction peuvent être obtenus avant que les molécules ne soient détruites.
La diffraction des rayons X par des monocristaux ("X-ray single-crystal diffraction" - SCD) a une limitation évidente : les molécules cibles
doivent être obtenues comme des monocristaux.
En 2013, un protocole d'analyse SCD ne nécessitant pas la cristallisation de l'échantillon a été développé (Inokuma et al., 2013):
l'échantillon est mélangé à une solution de minuscules cristaux d'un complexe poreux : ce complexe absorbe les molécules de
l'échantillon.
l'analyse SCD étant effectuée sur un minuscule monocristal de complexe, la masse requise d'échantillon est réduite à l'ordre du
nanogramme ou du microgramme.
de plus, cette technique peut-être couplée à la chromatographie liquide haute performance, ce qui permet la caractérisation directe de
plusieurs molécules.
Cristallographie : unité asymétrique d'une maille cristalline et cellule unitaire
L'unité asymétrique est le plus petit volume d'une structure cristalline (maille cristalline) auquel les opérations de symétrie du groupe d'espace
du cristal considéré peuvent être appliquées afin de reconstituer la cellule unitaire ("unit cell" - l'unité de répétition du cristal) complète.
Quand la cellule unitaire est répliquée dans les 3 dimensions, on reconstitue le cristal entier.
Exemple : l'unité asymétrique (flèche verte vers le haut) est tournée de 180 degrés autour d'un axe de symétrie cristallographique double
(ovale noir). On obtient une copie (flèche violette vers le bas) : ces deux flèches constituent la cellule unitaire. Celle-ci est alors répliquée par
translation dans les 3 directions pour former le cristal tridimensionnel.
Source : PDB
Remarque : le volume de l'unité asymétrique est donc inférieur à celui de la maille du cristal sauf pour le groupe d'espace triclinique P1 dont
l'unité asymétrique a un volume égal à celui de la maille.
Les opérations de symétrie les plus couramment appliquées aux cristaux de macromolécules biologiques sont les rotations, les translations et
les « tour de de vis » ("screw axes", combinaisons [rotation - translation]).
Cristallographie : assemblage biologique
L'assemblage biologique (ou unité biologique - "biological assembly") est l'assemblage macromoléculaire qui est ou semble être la forme
fonctionnelle de la molécule. Par exemple, la forme fonctionnelle de l'hémoglobine est constituée de 2 x 2 chaînes polypeptidiques (α2β2).
Selon la structure cristalline, des opérations de symétrie peuvent être nécessaires pour obtenir l'assemblage biologique complet. A l'inverse,
un sous-ensemble des coordonnées cristallographiques peut suffire pour représenter l'assemblage biologique. En conclusion, un assemblage
biologique peut être construit à partir :
d'une copie de l'unité asymétrique

de plusieurs copies de l'unité asymétrique
d'une partie de l'unité asymétrique
Exemples
fichier 2HHB : l'assemblage biologique est égal à l'unité asymétrique. Aucune opération n'est nécessaire.
fichier 1OUT : l'assemblage biologique contient deux unités asymétriques. Une opération de symétrie cristallographique (rotation de 180
degrés autour d'un axe d'ordre 2) produit l'assemblage biologique complet.
fichier 1HV4 : l'assemblage biologique est la moitié de l'unité asymétrique. Le fichier décrit donc 2 structures similaires, mais pas
totalement identiques, de l'assemblage biologique à l'intérieur de l'unité asymétrique.
Outils d'analyse des assemblages biologiques
Des bases de données spécifiques, telles que PISA ("Protein Interfaces, Surfaces and Assemblies"), permettent d'analyser les assemblages
biologiques de la PDB.
jsPISA est un outil web interactif pour le calcul des surfaces macromoléculaires et des interfaces, pour l'évaluation de leurs propriétés et pour
l'inférence d'assemblages macromoléculaires probables à partir de données de coordonnées (généralement cristallographiques).
Cristallographie : : les fichiers au format mmCIF ("macromolecular Crystallographic Information Format")
Un fichier au format mmCIF contient les instructions pour générer un assemblage biologique. Un grand nombre de programme de
visualisation moléculaire (dont Jmol) sont compatibles avec ce format.
Un fichier mmCIF contient donc les informations concernant les éléments structuraux qui générent un assemblage biologique. Ces
informations se trouvent dans des catégories (ou listes d'informations) appelées "pdbx_struct_assembly", "pdbx_struct_assembly_gen" et
"pdbx_struct_oper_list" :
les deux premières catégories décrivent la construction de chaque assemblage biologique et les détails de cet assemblage
la troisième catégorie décrit les transformations nécessaires pour générer l'assemblage biologique
la catégorie "pdbx_struct_assembly_gen" établit le lien entre les transformations décrites dans la catégorie "pdbx_struct_oper_list" et les
chaînes polypeptidiques auxquelles ces transformations s'appliquent.
Remarque : les identifiants "asym_id" du fichier mmCIF désignent les chaînes polypeptidiques.
La catégorie "struct_biol" contient les remarques spécifiques des auteurs relatives aux assemblages biologiques.
Un dictionnaire de données archive les expériences de cristallographie de petites molécules et leurs résultats. Voir le fichier "mmcif_pdbx.dic"
("PDB Exchange Dictionary - PDBx/mmCIF"). Le format de ce dictionnaire et les fichiers de données basés sur ce dictionnaire sont conformes
à la représentation des données appelée STAR ("Self Defining Text Archive and Retrieval").
Extrait d'un fichier au format mmCIF
_pdbx_struct_assembly.id 1
_pdbx_struct_assembly.details author_and_software_defined_assembly
_pdbx_struct_assembly.method_details PISA
_pdbx_struct_assembly_gen.assembly_id 1
_pdbx_struct_assembly_gen.asym_id_list A,B,C,D,E,F,G,H
loop_
_pdbx_struct_assembly_prop.biol_id
1 'ABSA (A^2)' 3840 ?
loop_
_pdbx_struct_oper_list.id
_pdbx_struct_oper_list.matrix[1][1]
1 'identity operation' 1_555 1.0000000000 0.0000000000
2 'crystal symmetry operation' 4_565 1.0000000000 0.0000000000
1_555 : décrit l'opérateur de symétrie utilisé (désigné par le nombre 1) et les opérations de translation nécessaires (le chiffre 555).
Les opérateurs de symétrie sont définis par le groupe d'espace et les opérations de translation sont indiquées pour les 3 axes de la cellule
unitaire (a, b et c) :
le nombre 5 indique aucune opération de translation

les nombres supérieurs ou inférieurs indiquent le nombre d'opérations de translation de la cellule unitaire dans une direction positive ou
négative
4_565 : utilisation de l'opérateur de symétrie 4, suivie d'une opération de translation de la cellule unitaire dans la direction positive selon l'axe
b.
b. La résonance magnétique nucléaire
Voir le principe de la RMN.
Du fait de son caractère non destructif, la RMN est employée en biologie et en chimie organique pour déterminer la structure de certaines
protéines ou de fragments d'ADN, de molécules organiques, ...
C'est une technique où les molécules sont en solution.
L'un des avantages de la RMN est d'obtenir des informations sur la dynamique des arrangements conformationnels au sein des
macromolécules biologiques par mesure des temps de relaxation (T1, T2), des temps de corrélation, des vitesses d'échange chimique.
Ces arrangements conformationnels peuvent être :
le changement de conformation (extension) d'hélice α (exemple : la calmoduline fixant le calcium)

la transition R <===> T d'enzymes à régulation allostérique
l'ouverture / fermeture ("hinge bending") de domaines liant d'autres domaines (exemple: les déshydrogénases à NAD(P)+)
...
Kurt Wüthrich a reçu le prix Nobel de chimie en 2002 pour le développement de la RMN pour la détermination de la structure des
macromolécules en solution.
Terminologie :
a. Protéine non marquée par des isotopes ("2D Homonuclear nuclear magnetic resonance" - spectre RMN en 2 dimensions) : davantage
appliqué aux peptides et aux petites protéines
expérience COSY : "COrrelation SpectroscopY"

expérience TOCSY : "TOtal Correlation SpectroscopY"
expérience NOESY : "Nuclear Overhauser Effect SpectroscopY"
b. Attribution des déplacements chimiques observés à chaque type d'atome (marquage isotopique / carbone 13 et azote 15) : expérience
HSQC ("2D Heteronuclear Single Quantum Correlation") pour les noyaux autres que l'hydrogène.
c. Grosses protéines : expérience TROSY ("Transverse Relaxation Optimized SpectroscopY").
d. Protéines membranaires et fibrillaires : elles sont "sous-étudiées" structuralement car les agents chimiques chaotropes (détergents)
nécessaires à leur solubilisation des membranes limitent (voire empêchent) l'obtention de cristaux qui diffractent. Une méthode est de plus en
plus employée pour déterminer la structure de ces protéines : "Magic-angle spinning solid-state NMR (MAS ssNMR) spectroscopy".
Voir : "Magic-Angle Spinning (MAS)".
c. La cryo-microscopie électronique
La cryo-microscopie électronique ("single-particle cryo-electron microscopy" - Cryo-EM) est une forme de microscopie électronique à
transmission où l'échantillon est étudié à des températures cryogèniques (azote liquide, environ -195°C). Dans ces conditions de congélation
rapide, l'eau n'a pas le temps de former des cristaux.
Source : Jarnestad J. - The Royal Swedish Academy of Sciences
La cryo-EM permet donc l'observation d'échantillons dans leur état natif, non cristallin, par opposition à la diffraction des rayons X qui requière
en général des conditions non physiologiques. Les besoins en quantité de matériel biologique purifié sont moindres que pour la diffraction des
rayons X ou la RMN.
EM Databank ("Unified Data Resource for 3-Dimensional Electron Microscopy") : Base de données de structures déterminées par cryo-EM.
La cryo-EM est de plus en plus utilisée pour la détermination de la structure des macromolécules biologiques (ci-dessous, les statistiques de
la base de données EMDB).
La cryo-EM est surtout utilisée pour les complexes biologiques (virus, ribosome, spliceosome, ...) : en effet, leur très grande taille empêche de
les étudier par diffraction des rayons X ou RMN.
La résolution de la cryo-EM est désormais comparable à celle des deux autres grandes techniques de détermination de la structure des
macromolécules biologiques.
Pour obtenir des modèles à l'échelle atomique, il est nécessaire d'affiner ("in silico modeling") les données de densité électronique de cryo-
EM avec celles des structures cristallographiques d'entités constitutives de ces complexes.
Figure ci-dessous : Evolution des technologies de Cryo-EM.
Source : Fujiyoshi, Y. (2011)
Le microscope enregistre les données d'un trés grand nombre de particules orientées au hasard.
Un modèle tri-dimensionnel est ensuite reconstruit par ordinateur à partir d'images 2D sélectionnées.
Figure ci-dessous :
Images 3D d'une apolipoprotéine A-1 prises sous les différents angles indiqués.
Puis 4 traitements successifs de l'image (amélioration des projections - "Raw projection") clarifient le signal.
On aboutit à la structure 3D : colonne de droite et figures B, C.
Source : Berkeley lab
Les avancées de la cryo-microscopie électronique
Plusieurs facteurs sont cause d'une perte importante d'information dans les images de cryo-EM (et donc de la limitation de la résolution
actuelle de cette technique) :
les dommages subis par l'échantillons à cause de l'énergie des électrons : la dose d'électrons doit être limitée pour empêcher les
molécules de se désagréger pendant l'acquisition des images
une faible efficacité de détection quantique ("Detective Quantum Efficiency" - DQE) des appareils de mesure classiques : la DQE est la
mesure fréquence-dépendante de la performance [signal-bruit]
le mouvement ou la charge de l'échantillon induits par l'énergie du faisceau pendant l'acquisition des images
L'utilisation de nouveaux détecteurs d'électrons dits "à conversion directe" ("direct-conversion electron detectors") et d'algorithmes de
correction des mouvements spécifiquement développés à cet usage a démontré que cette technique permet de résoudre des structures
macromoléculaires à une résolution quasi atomique.
Ces caméras ont non seulement des performances améliorées dans la détection [signal-bruit], mais surtout elles sont suffisamment rapides
pour suivre les mouvements de particules lors de l'irradiation par les électrons. Ainsi les mouvements de l'échantillon (pendant l'acquisition
des données) induits par l'énergie du faisceau peuvent être corrigés.
Deux exemples d'application :
Bai et al. (2013) ont obtenu une image du ribosome 80S de Saccharomyces cerevisiae à une résolution de 4,5 Å : environ 30.000
particules de ribosome ont été nécessaires, soit 50 à 100 fois moins que pour les déterminations précédentes de la structure du
ribosome. Visualisation de cette structure à l'EBI.
Li et al. (2013) ont obtenu une image du protéasome 20S (700 kDa - groupe de symmétrie D7) de Thermoplasma acidophilum à une
résolution de 3,3 Å. Seules 120.000 particules de protéasome ont été nécessaires.
Les protéines membranaires
Lorsque les protéines membranaires intégrales sont visualisées dans des détergents ou d'autres systèmes artificiels, une information capitale
est perdue : les interactions avec les lipides et leurs effets sur la structure réelle de la protéine dans la membrane. C'est d'autant plus
marquant dans le cas des protéines pour lesquelles les lipides ont un rôle structural et un rôle de régulation.
La cryo-EM / couplée à la technologie des lipides nanodisques permet de déterminer la structure d'une protéine membranaire dans une
bicouche lipidique.
Exemple : l'étude du récepteur ionotrope TRPV1 ("Transient Receptor Potential cation channel subfamily V member 1") du rat. Ce type de
récepteur est activé par des molécules de la famille des vanilloïdes (exemple : la capsaïcine du piment) ou une température supérieure à
42°C.
Source : Gao et al. (2016)
La cryo-EM / couplée à la technologie des lipides nanodisques :
a permis de déterminer la localisation des lipides structuraux et des lipides de régulation

a montré que des interactions avec des phospholipides spécifiques augmente la fixation d'une toxine d'araignée sur TRPV1 par la
formation d'un complexe ternaire
a montré que des lipides dérivés du phosphatidylinositol occupent le site de fixation de la capsaïcine (et d'autres ligands vanilloïdes) ce
qui suggère un mécanisme par lequel des stimuli chimiques ou thermiques provoquent l'activation du canal ionique TRPV1 en favorisant
la libération de lipides bioactifs d'un site de régulation allostérique critique.
Prix Nobel 2017
Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour le développement de la
technique de cryo-EM.
Source : Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel"
La résolution de la cryo-EM a notablement augmenté en évoluant d'une carte de densité à basse résolution (partie gauche de la structure de
la β-galactosidase, figure ci-dessous) aux coordonnées atomiques (environ 2 Å - partie droite).
Augmentation remarquable de la résolution de la cryo-EM
La structure de la ferritine (stockage du fer) à été déterminée avec une résolution d'environ 1,2 Å par reconstruction cryo-EM à particule
unique : les données sont de qualité suffisante pour observer les atomes individuels dans l'apoferritine (en absence de fer). Cette amélioration
remarquable de la résolution repose sur des progrès matériels (Yip et al., 2020 ; Nakane et al., 2020).
Source : Yip et al. (2020)
d. Autres techniques moins fréquemment utilisées
La diffusion des rayons X aux petits angles ("Small-angle X-ray scattering" - SAXS) :
Elle utilise des sources de radiation de type synchrotron ("high-flux synchrotron sources") : λ ≈ 0,15 nm.
Cette technique s'appuie sur l'interaction élastique des photons avec les électrons des atomes. Quand ils interagissent avec la
macromolécule, les photons sont diffusés en fonction des densités électroniques. Plus l'atome est léger, moins l'interaction est forte : les
atomes d'hydrogène sont difficiles à localiser pour une résolution supérieure à 1,2 Å.
Elle permet d'analyser la forme globale d'un complexe.
Elle permet d'étudier l'échantillon (protéines membranaires, ARN, ...) dans différentes conditions physico-chimiques. Par exemple, en
conditions dénaturantes donc à divers degrés de repliement.
La diffusion des neutrons aux petits angles ("Small angle neutron scattering" - SANS) :
Elle utilise des neutrons termiques : λ ≈ 0,5 nm.

Elle est combinée avec un marquage au deutérium.
Les neutrons interagissent avec le noyau des atomes indépendamment de leur numéro atomique. En conséquence l'atome d'hydrogène
est aussi bien localisé que des atomes plus lourds (carbone, oxygène, azote - "similar scattering length densities").
Elle permet d'analyser la position relative d'un composant au sein d'un complexe.
Les échantillons sont ré-utilisables pour des études combinées à la RMN, par exemple.
La spectroscopie infrarouge par transformée de Fourier ("Fourier Transform Infrared Spectroscopy" - FTIR) :
Petites quantités de matériel analysable dans diverses conditions expérimentales.

Voir le principe de la spectroscopie infrarouge.
La fluorescence et les fluorochromes :
Ces techniques sont plus indirectes et ne permettent pas de déterminer la structure des macromolécules. En revanche, elles apportent
des informations quant à leur localisation sub-cellulaire ou leur interaction avec d'autres molécules biologiques.
"X-ray fluorescence microscopy" - XRF
"Green Flurescent Protein" - GFP
"Fluorescence Resonance Energy Transfer"
La spectromètrie de masse :
Etude de l'assemblage de protéines (pour l'instant jusqu'à 1 million Da) par spectromètrie de masse "Orbitrap mass analyser"
(quadrupôle / "time of flight").
Exemple d'utilisation de plusieurs méthodes
Modèle d'activation de la Ca2+-ATPase :
cristallographie
modèles de faible résolution SAXS obtenus avec le programme ab initio DAMMIN
"homology modeling" : modèles de la Ca2+-ATPase obtenus avec le programme Modeller (sur la base des structures PDB 3N5K et
3N8G)
calcul de la compacité ("docking") de l'extrémité N-terminale (domaine auto-inhibiteur) avec le programme HADDOCK
Figure ci-dessous - à gauche : forme auto-inhibée de la Ca2+-ATPase de la membrane plasmique ("Plasma-Membrane Ca2+-ATPase").
Figure ci-dessous - à droite : fixation de deux molécules de calmoduline (complexée au calcium) sur les sites de fixation à haute affinité (en
vert clair et en bleu clair). Cette fixation déplace l'hélice auto-inhibitrice du coeur catalytique, ce qui active la pompe à ion.
Source : Tidow et al. (2012)
4. La mécanique et la modélisation moléculaires
Ce type d'approche est complémentaire des techniques physiques qui précèdent. Ces objectifs sont entre autres :
l'obtention d'informations sur la dynamique et l'énergie des molécules. Exemples : AMBER, CHARMM, GROMACS.
calculer le champ de force pour déterminer les propriétés des molécules. Exemples : AMBER, CHARMM, GROMACS.
corréler ces propriétés à une structure moléculaire et valider la structure moléculaire.
simuler des phénomènes biologiques complexes (exemple le transport d'ions par des canaux ioniques) - méthode Monte-Carlo.
Exemple : BOSS, BioMOCA.
la visualisation des molécules à partir de données structurales déterminées par cristallographie, RMN, Cryo-EM. Exemples : Jmol,
RasMol.
...
Voir le principe de la mécanique moléculaire et la notion de champs de force.
Exemple de terminologie anglo-saxonne : "Backbone torsion angles optimization with Monte Carlo minimization protocol" / "Energy
minimization using a quasi-Newton method" / "Lazaridis–Karplus implicit solvation model".
Différents outils informatiques sont utilisés pour :
visualiser la structure des molécules en 3 dimensions. Exemples : Chimera, DeepView.

les "manipuler" (rotation, translation, changement de conformation). Exemples : Chimera, PyMol, VMD.
calculer les paramètres géométriques (distance inter-atomique, angle, ...) ou énergétiques. Exemples : Modeller, Chimera, PyMol.
comparer des structures de macromolécules. Exemples : Modeller, Chimera, PyMol.
simuler des structures inconnues à partir de structures 3D (déja déterminées) homologues ou similaires ("homology modeling" - "protein
threading", ...). Exemples : Modeller, EsyPred3D.
...
Voir une liste quasi exhaustive des programmes de mécanique et modélisation moléculaires.
5. Les méthodes "ab initio" ("depuis le commencement")
a. Introduction
Il y a un grand nombre, fini, de repliements des protéines observés dans la nature. A ce jour on comptabilise environ 1400 repliements (selon
les modes de classification et les bases de données).
On ne sait pas si les structures non encore observées sont physiquement impossibles ou si elles n'ont pas encore été "testées" par le
processus évolutif ou caractérisées par les biologistes structuraux.
Les méthodes informatiques (algorithmiques) de conception de nouvelles structures protéiques :
"Template-based modeling" qui s'appuie sur des structures 3D déterminées ("Protein Data Bank")
"de novo protein design" : qui ne s'appuie pas sur des structures 3D déterminées
sont un moyen de répondre (peut-être) rapidement à cette question mais aussi de concevoir des protéines "artificielles" aux propriétés
thérapeutiques originales.
Exemples de champs d'application :
découverte de médicaments
enzymes à applications industrielles
étude des interactions protéines-protéines
spécificité de ligands des récepteurs membranaires
nouveaux sites actifs / spécificité de substrats des enzymes
découverte d'inhibiteurs d'enzymes
augmentation de la stabilité structurale des protéines
...
b. Démarche "Template-based modeling"
Le but est de générer une séquence ou un ensemble de séquences d'acides aminés qui se replie(nt) dans une structure 3D préalablement
déterminée ("template").
L'une des principales caractéristiques de cette démarche par [simulations / calculs] est qu'elles génèrent des (dizaines de) milliers de
séquences donc de modèles moléculaires ("decoys").
Ces modèles reflètent le sous-ensemble de conformations les plus stables parmi l'ensemble total des conformations spatiales
adoptables a priori par une séquence d'acides aminés (compte-tenues de tout ou partie des contraintes stériques, chimiques, de
solvatation, ...).
Il est possible que différentes séquences aboutissent au même repliement, certaines de ces séquences révélant des propriétés
particulières (protéine plus stable, protéine plus active, ...).
Cette démarche suit donc une logique inverse à celle du problème du repliement d'une protéine ("protein folding") qui est de prédire le
repliement qu'adopte une séquence d'acides aminés donnée.
Limitations actuelles
Il est difficile de concevoir une protéine de plus de 100 acides aminés : avec une moyenne de 100 rotamères pour chacun des 20 acides
aminés à chaque position, la complexité du problème (NP-complet) peut-être estimée à 100100 = 10200. L'une des limitations actuelles
est donc liée à l'efficacité des algorithmes.
L'autre difficulté est d'incorporer, dans les étapes de sélection des conformations les plus vraisemblables par rapport à la structure
"template", la fléxibilité réelle du squelette carboné de la chaîne polypeptidique.
De plus, ces 2 aspects sont liés : introduire le paramètre fléxibilité augmente la complexité des algorithmes.
Près de 80.000 protéines dont la structure 3D a été déterminée (PDB) sont cytosoliques et seules quelques centaines sont
membranaires. On ne dispose donc pas d'informations suffisantes pour les 3 types de protéines.
c. Description schématique de la démarche "Template-based modeling"
1ère étape
Génération des séquences d'acides aminés susceptibles de déboucher sur un repliement donné ("template").
Ci-dessous : cette équation décrit un moyen de générer ces séquences d'acides aminés "artificielles".
Source : Fung et al. (2008)
1er cas : une structure protéique de départ ("template")
i = 1, …, n : nombre de positions des acides aminés le long de la chaîne polypeptidique de départ (équation ci-dessus).
A chaque position i, il peut y avoir un ensemble de mutations, representé par : j{i} = 1, …, mi (mi = 20 acides aminés).
k > i est nécessaire pour tenir compte de toutes les interactions 2 à 2 entre acides aminés.
Les variables binaires yji et ylk indiquent les mutations possibles à une position donnée.
La variable binaire wjlik est le produit de yji par ylk' .
La fonction à minimiser est la somme des énergies d'interactions 2 à 2 entre les acides aminés de la séquence de départ.
Le terme Ejlik (xi, xk) est l'énergie d'interaction entre la position i occupée par l'acide aminé j et la position k occupée par l'acide aminé l.
Ce terme dépend :
de la distance entre les carbones α ou le centre de gravité des chaînes latérales aux deux positions (xi, xk)
du type d'acides aminés j et l
2ème cas : plusieurs structures protéiques de départ
Le terme Ejlik (xi, xk) est remplacé par un terme d'énergie moyenne pondéré :
La distance entre xi etxk est donc remplacée par une distance moyenne pondérée entre toutes les structures.
Des centaines, voire des milliers de séquences potentielles ("decoys") peuvent ainsi être générées.
Deuxième étape
Recherche des conformations les plus stables thermodynamiquement (fonctions de minimisation d'énergie) et semblables à la structure
native :
prédiction des hélices α et des feuillets β

maximisation de l'énergie des interactions hydrophobes entre feuillets
prédiction des contraintes d'angles et de distances via la prédiction des contacts entre résidus et des contacts entre les boucles
recherche d'une solution au problème contraint - non convexe d'optimisation globale par une combinaison de plusieurs algorithmes :
1. d'optimisation globale déterministe
2. d'optimisation globale stochastique
3. de dynamique moléculaire dans l'espace des angles de torsion
La stabilité des modèles ("decoys") est évaluée par des fonctions de scores qui combinent :
des termes énergétiques basés sur la physique ("physics-based scoring functions") de la molécule. Exemple : sa compacité -
interactions van der Waals.
des termes énergétiques basés sur la connaissance ("knowledge-based scoring functions") des molécules : analyse statistique des
données de la PDB - interactions entre acides aminés.
Des étapes finales d'affinements pour augmenter la résolution de la structure native calculée sont parfois nécessaires.
Voir la procédure suivie par "ASTRO-FOLD".
Troisième étape
Les conformations proches ou équivalentes à la structure native ("native-like conformation") sont alors sélectionnées :
sur la base de ces fonctions de score

par regroupement de conformères semblables
d. Démarche "de novo protein design" - Rosetta
L'originalité de cette méthode est qu'elle ne s'appuie sur aucune structure 3D préalablement déterminée.
Terminologies équivalentes : "de novo structure prediction" / "de novo structure modeling".
Rosetta est un projet dédié à la prédiction de nouvelles structures de protéines ("ab initio protein structure prediction method Rosetta") par
calculs partagés sur ordinateurs ou grille de calcul distribué (plateforme BOINC - "Berkeley Open Infrastructure for Network Computing").
Des petits fragments d'environ 10 acides aminés sont assemblés en molécules plus grandes, ce qui réduit considérablement les degrés de
liberté conformationnels de l'échantillon.
Cette approche s'appuie sur l'hypothèse que l'information concernant la stabilité de la structure est contenue localement au sein de chaque
fragment.
Figure ci-dessous : un exemple de démarche Rosetta.
Source : Nanda & Koder (2010)
Des règles trés précises de topographie des acides aminés au sein de structures secondaires ont pu être énoncées (Koga et al., 2012) :
règle ββ : la chiralité des épingles qui relient des brins β est déterminée par la longueur de la boucle de l'épingle.
règle βα : la direction d'une hélice est déterminée par la direction du dernier acide aminé d'un feuillet et la longueur de la boucle qui l'y
rattache : direction P si la boucle contient 2 résidus et direction A si elle en contient 3.
règle αβ : le premier acide aminé d'un feuillet pointe en direction opposée de l'hélice adjacente : la direction préférée est P.
Source : Koga et al. (2012)
Aller à la base de données "Motivated proteins" : elle contient un trés grand nombre de motifs stabilisés par des liaisons hydrogène et des
règles qui en découlent.
Ci-dessous, aperçu de quelques méthodes de modélisation et de cadres de conception de macromolécules dans l'environnement Rosetta.
Source : Leman et al. (2020)
Les protéines naturelles ont évolué pour reconnaître un ensemble relativement faible de molécules de ligand avec une grande affinité et une
grande spécificité. Élargir cet ensemble de couples [protéine - ligand] avec des protéines synthétiques spécifiques de ces ligands pourrait
modifier radicalement le développement de biocapteurs, de médicaments à base de protéines, d'enzymes artificielles et autres outils pour la
biologie chimique.
De nouvelles méthodes de calcul utilisent la sélection virtuelle du meilleur conformère dans un très vaste ensemble de conformations (Tinberg
et al., 2013).
On définit les positions géométriques d'un ensemble de chaînes latérales qui interagissent avec le ligand et les rotamères pour chaque
chaîne latérale interagissante sont énumérés.
On cherche ensuite les squelettes carbonés (banque PDB) des conformères susceptibles d'accommoder toutes les interactions
désirées.
Dans le cas où tous les résidus choisis qui interagissent peuvent être placés dans le squelette d'une protéine et que ces interactions
orientent convenablement le ligand dans le site de fixation, la séquence du site de liaison est optimisée pour augmenter l'affinité
(panneau central).
Les conformères conçus théoriquement qui ont des propriétés proches ou semblables à la protéine naturelle sont sélectionnés puis
caractérisés expérimentalement (cytométrie de flux des levures chez lesquelles on exprime les conformères conçus théoriquement).
Exemple de lignes de commande pour générer les conformères:

~/rosetta/bin/generate_ligens.linuxiccrelease –database <rosetta_database_path>
–in:file::s <ligand_pdb_model.pdb> -in:file::exra_res_fa <ligand.params> @flags
@flags:
-packing -use_input_sc –enzdes –rot_ensemble_ecutoff 0.25 –cst_design – no_unconstrained_repack
Exemple de lignes de commande pour la recherche de structures concordantes :

~/rosetta/bin/match.static.linuxiccrelease –database <rosetta_database_path>
-extra_res_fa <ligand.params> -s <scaffold.pdb> -match:scaffold_active_site_residues <scaffold.pos> –
match:geometric_constraint_file <constraint.cst> @match.flags
@match.flags:
-match:lig_name:DIG -match:filter_colliding_upstream_residues
-match:filter_upstream_downstream_collisions -match:updown_collision_tolerance 0.3
-match::bump_tolerance 0.3 -match_grouper SameSequenceAndDSPositionGrouper
-match:euclid_bin_size 0.9 -match:euler_bin_size 9.0 -packing -extrachi_cutoff 0
-use_input_sc -in:ignore_unrecognized_res -output_format CloudPDB
-enumerate_ligand_rotamers -only_enumerate_non_match_redudant_ligand_rotamers
-out::file::output_virtual
Exemple de lignes de commande pour le "design" de structures:

~/rosetta/bin/rosetta_scripts.static.linuxiccrelease -nstruct 1 -jd2:ntrials 1
-parser:protocol <RosettaScripts_protocol.xml> –database <rosetta_database_path>
-out::overwrite –s <input.pdb> @ligdes.flags
@ligdes.flags:
-run::preserve_header -enzdes::minimize_ligand_torsions 5.0
-enzdes::detect_design_interface -enzdes::cut1 6.0 -enzdes::cut2 8.0
-enzdes::cut3 10.0 -enzdes::cut4 12.0 -enzdes::bb_min_allowed_dev 0.05
-score:weights ~/rosetta_database/scoring/weights/enzdes.wts -packing::use_input_sc
-packing::extrachi_cutoff 1 -packing::ex1 -packing::ex2 -linmem_ig 10
-no_optH false -in:file::pssm scaffold.fasta.pssm
-extra_res_fa <DIG.params>
e. Exemple de la protéine "artificielle" TOP7 (2003)
C'est une protéine "artificielle" de 93 acides aminés issue de simulations / calculs de prédiction ("de novo protein design") effectués par Brian
Kuhlman et Gautam Dantas (équipe de David Baker - Université de Caroline du Nord) .
Ces chercheurs ont utilisé comme point de départ un repliement encore jamais mis en évidence dans la nature.
Les séquences ont été générées avec le programme "Rosetta design Monte Carlo search protocol and energy function" :
un potentiel de Lennard-Jones 12-6

un terme pour les liaisons hydrogène dépendant de l'orientation
un modèle de solvatation implicite
Tous les acides aminés (excepté la cystéine) ont été autorisés pour 71 des 93 positions (≈ 110 rotamères par position) et les 22 positions
restantes (surface des feuillets) ont été restreintes à des acides aminés polaires (≈ 75 rotamères par position). L'espace de recherche était de
11071 × 7522, soit ≈ 10186 rotamères.
Les conformations du squelette carboné ont été générées sans contrainte pour optimiser la compacité des chaînes latérales : en
conséquence, les séquences de plus basse énergie avaient une énergie très supérieure à celle de protéines natives de même taille.
La structure la plus stable a été baptisée TOP7 : 2 hélices α compactées à 5 feuillets β anti-parallèles (figure ci-contre). Ce type de repliement
n'a pas encore été observé dans la nature.
En parallèle, la protéine TOP7 recombinante a été produite in vivo dans Escherichia coli puis cristallisée.
La comparaison de la structure modèle conçue par calcul et de la structure cristalline est saisissante (figure ci-dessous) :
Source : Kuhlman et al. (2003)
ensemble de la chaîne carbonée : RMSD = 1,17 Å

peptide Asp78 - Gly85 : RMSD = 0,79 Å
Visualisation de TOP7 à une résolution de 2,5 Å
Le chargement de la structure peut prendre du temps.
Code PDB : 1QYS
Rotation
Helices
Feuillets
Orientation de depart
6. Liens Internet et références bibliographiques
PDB : Protein Data Bank PDB
SCOP : Structural Classification of Proteins SCOP
TOPS : Topology of Protein Structure database TOPS
CASP : Critical Assessment of Techniques for Protein Structure Prediction CASP
Rosetta@home : Baker laboratory, University of Washington; Rosetta Commons Rosetta
Foldit : online protein structure prediction game based on the Rosetta platform Foldit
Folding@home Folding@home
HPF : Human Proteome Folding Project HPF
TOP7 : molecule of the month - PDB TOP7
SBKB : PSI Structural Genomics Knowledgebase (PSI : Protein Structure Initiative) SBKB
Motivated proteins : A Web Facility for Studying Small Hydrogen-Bonded Motifs (très beau travail pédagogique) Aller au site
GROMACS : a versatile package to perform molecular dynamics, i.e. simulate the Newtonian equations of motion
Gromacs
for systems with hundreds to millions of particles
I-TASSER
I-TASSER : "Protein structure and function predictions"
GalaxyWEB
GalaxyWEB : "Web server for protein structure prediction and refinement"
Kuhlman et al. (2003) "Design of a Novel Globular Protein Fold with Atomic-Level Accuracy" Science 302, 1364 -
1368 Article
Fung et al. (2008) "Toward Full-Sequence De Novo Protein Design with Flexible Templates for Human Beta- Article
Defensin-2" Biophys J. 94, 584 - 599
Article
Nanda & Koder (2010) "Designing Artificial Enzymes by Intuition and Computation" Nat. Chem. 2, 15 - 24
Article
Fujiyoshi, Y. (2011) "Structural physiology based on electron crystallography" Protein Sci. 20, 806 - 817
Koga et al. (2012) "Principles for designing ideal protein structures" Nature 491, 222 - 227
Article
Tidow et al. (2012) "A bimodular mechanism of calcium control in eukaryotes" Nature 491, 468 - 472
Article
Rose et al. (2012) "High-sensitivity Orbitrap mass analysis of intact macromolecular assemblies" Nat. Meth. 9,
1084 - 1086 Article
Vogeli et al. (2012) "Spatial elucidation of motion in proteins by ensemble-based structure calculation using exact Article
NOEs" Nat. Struc. Mol. Biol. 19, 1053 - 1057
Shahid et al. (2012) "Membrane-protein structure determination by solid-state NMR spectroscopy of Article
microcrystals" Nature Meth. 9, 1212 - 1217
Article
Gopinath & Veglia (2012) "Dual Acquisition Magic-Angle Spinning Solid-State NMR-Spectroscopy: Simultaneous
Acquisition of Multidimensional Spectra of Biomacromolecules" Angew Chem. Int. Ed. Engl. 51, 2731 - 2735 Article
Banigan & Traaseth (2012) "Utilizing Afterglow Magnetization from Cross-Polarization Magic-Angle-Spinning Article
Solid-State NMR Spectroscopy to Obtain Simultaneous Heteronuclear Multidimensional Spectra" J. Phys. Chem.
B 116, 7138 - 7144
Inokuma et al. (2013) "X-ray analysis on the nanogram to microgram scale using porous complexes" Nature 495,
461 - 466
Bai et al. (2013) "Ribosome structures to near-atomic resolution from thirty thousand cryo-EM particles" eLife 2,
e00461
Article
Li et al. (2013) "Electron counting and beam-induced motion correction enable near-atomic-resolution single-
particle cryo-EM" Nat. Methods 10, 584 - 590 Article
Tinberg et al. (2013) "Computational design of ligand-binding proteins with high affinity and selectivity" Nature Article
501, 212 - 216
Article
Gao et al. (2016) "TRPV1 structures in nanodiscs reveal mechanisms of ligand and lipid action" Nature 534, 347 -
351
Le Prix Nobel de Chimie a été attribué en 2017 à Jacques Dubochet, Joachim Frank et Richard Henderson pour
le développement de la technique de cryomicroscopie électronique.
Site Prix Nobel
Henderson et al. (1990) "Model for the structure of bacteriorhodopsin based on high-resolution electron cryo-
Article
microscopy" J. Mol. Biol. 213, 899 - 929
Article
Dubochet, J. (2016) "A reminiscence about early times of vitreous water in electron cryomicroscopy" Biophys. J.
110, 756 - 757 Article
Cressey & Callaway (2017) "Cryo-electron microscopy wins chemistry Nobel" Nature 550, 167
Leman et al. (2020) "Macromolecular modeling and design in Rosetta: recent methods and frameworks" Nat. Article
Methods 17, 665 - 680
Article
Yip et al. (2020) "Atomic-resolution protein structure determination by cryo-EM" Nature
Article
Nakane et al. (2020) "Single-particle cryo-EM at atomic resolution" Nature

Biochimej Univ Angers FR Page2 COURS 7RelStructFonction 3Str

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Biochimej Univ Angers FR Page2 COURS 7RelStructFonction 3Str

Hochgeladen von

Copyright:

Verfügbare Formate

Détermination et prédiction des structures des protéines

Like 19 Tweeter Share

4. La mécanique et la modélisation moléculaires

La figure ci-dessous montre le nombre de nouveaux repliements au cours du temps.

β. Les protéines membranaires :

γ. Les protéines globulaires :

b. Terminologies liées aux structures des protéines

Les domaines peuvent en général se replier de manière indépendante.

cristallographie - diffraction des rayons X : plus de 117 000 structures

2. Classifications hiérarchiques des structures des protéines

Les niveaux de la classification SCOP :

Root: SCOP 1.75A

Comparaison des terminologies SCOP et CATH ("Class Architecture Topology Homology")

SCOP : > 1200 repliements (Juin 2017) Base de données CATH

Classe : essentiellement alpha, essentiellement beta,

Exemple de classes de protéines et nombre de repliements

protéines toute alpha : 289 repliements

Topologie ("Topology") : groupes de repliements (forme et

Domaines : définition manuelle Domaines : définition automatique

Bases de données liées à SCOP

Exemples de programmes et de serveurs d'alignement de structures

3. Les techniques pour déterminer - analyser les structures des protéines

a. La diffraction des rayons X

Voir le principe de la diffraction des rayons X.

Techniques de pointe pour générer des rayons X :

XFELs : "X-ray free-electron lasers"

Cristallographie : unité asymétrique d'une maille cristalline et cellule unitaire

Cristallographie : assemblage biologique

d'une copie de l'unité asymétrique

Outils d'analyse des assemblages biologiques

Cristallographie : : les fichiers au format mmCIF ("macromolecular Crystallographic Information Format")

le nombre 5 indique aucune opération de translation

b. La résonance magnétique nucléaire

Voir le principe de la RMN.

Ces arrangements conformationnels peuvent être :

le changement de conformation (extension) d'hélice α (exemple : la calmoduline fixant le calcium)

expérience COSY : "COrrelation SpectroscopY"

c. Grosses protéines : expérience TROSY ("Transverse Relaxation Optimized SpectroscopY").

Voir : "Magic-Angle Spinning (MAS)".

Source : Jarnestad J. - The Royal Swedish Academy of Sciences

Figure ci-dessous : Evolution des technologies de Cryo-EM.

Source : Berkeley lab

Les avancées de la cryo-microscopie électronique

Deux exemples d'application :

Les protéines membranaires

La cryo-EM / couplée à la technologie des lipides nanodisques :

a permis de déterminer la localisation des lipides structuraux et des lipides de régulation

Prix Nobel 2017

Augmentation remarquable de la résolution de la cryo-EM

d. Autres techniques moins fréquemment utilisées

Elle utilise des neutrons termiques : λ ≈ 0,5 nm.

Petites quantités de matériel analysable dans diverses conditions expérimentales.

La fluorescence et les fluorochromes :

Exemple d'utilisation de plusieurs méthodes

Modèle d'activation de la Ca2+-ATPase :

Source : Tidow et al. (2012)

4. La mécanique et la modélisation moléculaires

Voir le principe de la mécanique moléculaire et la notion de champs de force.

Différents outils informatiques sont utilisés pour :

visualiser la structure des molécules en 3 dimensions. Exemples : Chimera, DeepView.

5. Les méthodes "ab initio" ("depuis le commencement")

Exemples de champs d'application :

b. Démarche "Template-based modeling"