您的位置 首页 工具使用

如何选择用于分子对接的蛋白晶体结构

在使用殷赋云计算平台的时候,有不少用户对于如何选择蛋白晶体结构存在疑问。本篇就这个话题做一些经验分享。任何标准都有一个适用范围。我们在这里只讨论用于分子对接的蛋白晶体结构的选择原则和方法。

1. 确定蛋白种属

在实验当中,研究人员通常使用动物模型(如小鼠)来研究人源蛋白。这样做有许多原因,比如:

1) 无法获得(提纯分离)人源蛋白;

2) 需要在体内考察蛋白的功能,但无法直接进行人体临床试验;

3) 使用动物蛋白更方便、更便宜;

4) 其他限制因素。

而计算模拟则便利很多。如果我们真正的研究对象是人体,则一般情况下应当使用人源蛋白。但是,如果需要根据对接计算的结果去指导实验或解释实验现象,或者开展后续实验(如定点突变)对计算结果进行验证,那么,原则上应当让计算用的蛋白种属与实验一致,否则氨基酸序列可能对应不上。

比如,在UniprotKB数据库(https://www.uniprot.org/)输入基因名1DH1,得到以下结果。然后,根据我们确定的种属查询相应的蛋白。

(UniprotKB数据库蛋白查询结果)

假设我们要研究人的蛋白,那么,可以在RCSB Protein Data Bank数据库中搜索它的Entry name(1DHC_HUMAN)。另一方面,PDB数据库也会给出每个晶体结构的种属信息。

(PDB详情页的蛋白种属信息)

2. 了解更多关于蛋白功能/结构的信息

做任何研究都应当对研究对象有充分了解。UniprotKB数据库为我们整合了蛋白的相关知识,我们可以通过它获得重要的信息。比如,了解蛋白的功能是什么,序列有多长,结合位点在哪里,有哪些蛋白结构。

(UniprotKB蛋白详情页,了解蛋白功能与结构信息)

(蛋白的结合区域信息)

3. 选择口袋完整的晶体结构

对于某些蛋白,RCSB PDB数据库可能存在许多晶体结构。这种情况下,应当选择包含完整口袋的晶体结构。比如,当我们寻找1DH1基因的蛋白(Isocitrate dehydrogenase [NADP] cytoplasmic,Uniprot AC: IDHC_HUMAN)时,找到许多晶体结构。以4UMX和4UMY为例,如果查看三维结构,我们会发现4UMY有较多残基缺失。最关键的是,一大段组成口袋的残基缺失了,导致口袋的形状改变(对比4UMX可知)。相反,4UMX则较为完整。因此,我们不应选择4UMY,而应选择4UMX作为候选结构。

(口袋完整与残基缺失的蛋白对比)

4. 选择含有共晶配体的结构

很多时候,蛋白晶体结构中不只是蛋白,还可能有核酸、多肽、辅酶、小分子化合物(抑制剂、拮抗剂、激动剂、底物)、助溶剂、表面活性剂、金属离子和水分子以及其他分子;除了目标蛋白,可能还有其他蛋白。在PDB数据库的蛋白详情页内有详细记录,我们需要了解各组分是什么物质,各自的作用是什么,哪个是共晶配体。

(蛋白晶体结构中各组分的信息)

一些很小的分子,数量很多的分子,结合在很浅的蛋白表面的分子,通常不会是配体分子(但也有例外)。还有一些名称非常常见的,比如:GOL、ACT、PEG、SO4等等,这些只是蛋白结晶所需要的或者在溶液中存在的分子,不是真正意义上的配体分子。
仍然以4UMX为例,通过查询它的详细记录(https://www.rcsb.org/structure/4UMX),我们了解到NAP是辅酶,VVS是小分子配体,GOL是助溶剂分子而已。那么,我们应当以VVS的结合位置为对接口袋,而不应以NAP为对接位点。考虑到NAP与VVS有直接的相互作用,我们应当在对接时保留NAP,把它作为受体的一部分参与对接。

常见的辅酶还有:ADP、ATP、NAD+、NADH、NADP+、NADPH、HEME。

5. 选择共晶配体相似的晶体结构

当有多个蛋白晶体结构可选,并且很多是包含共晶配体的,我们可以选择共晶配体与要对接的化合物在结构上比较相似的那个。因为蛋白与配体在结合过程中,会发生“诱导契合”效应。有的蛋白的口袋柔性较大,这种效应更加明显,蛋白跟不同配体结合时,口袋会有所改变。更为极端的是,有可能存在“开”和“合”等不同状态。而对接过程中,蛋白结构是刚性不变的。因此,选择口袋形状合适的晶体结构会有利于对接。

6. 选择分辨率高的晶体结构

蛋白晶体结构的质量指标之一是resolution,它表示晶体结构模型中的原子位置的不确定程度。在有许多晶体结构可选的情况下,我们选择分辨率高的,即resolution数值小的。一般来说,resolution < 2 Å就足够好了。但这不是最重要的选择标准,很多人一上来就根据这条规则过滤掉大部分蛋白,这是不够严谨、合理的。因为这样有可能导致被过滤掉的低分辨率蛋白中包含共晶配体,而剩下的高分辨率蛋白中却没有配体的情况。此时选择高分辨率蛋白就无法确定口袋的位置(虽然可以通过低分辨率蛋白来了解口袋位置,但仍然不便于定位口袋)和获得适合的口袋形状。

(蛋白结构分辨率resolution)

值得注意的是,晶体结构由于分辨率问题,通常不含氢原子,只有个别超高分辨率的文件,才能看到氢原子的确切位置。相反,核磁结构通常含有氢原子,且有较多构象(它是溶液中的状态),但不含配体分子。在蛋白分辨率的选择问题上,我们应有合理的依据,而非教条主义、人云亦云。

总结

事实上,如何选择蛋白晶体结构,是个帕累托最优问题。我们需要综合判断,选择最适合于当前研究的晶体结构。上述内容虽然是针对分子对接计算来讲的,但同样适用于其他计算模拟的情况。

如果上述内容有纰漏之处,欢迎大家批评指出。如果有补充或建议,欢迎在下方评论进行交流。

作者: 殷赋科技

广州市殷赋信息科技有限公司(简称“殷赋科技”),成立于2015年11月。承蒙多所高校教授与研究生的鼎力支持,我们在药物设计与筛选、计算化学/化学信息学、计算生物学/生物信息学及机器学习等领域进行了长期研究并积累了丰富的实践经验。殷赋科技坚持“科技引领创新,专业提升效率”的理念,致力于成为国际领先的科研与应用信息技术服务提供商,推动国内外科研、教育机构与研发企业共同发展,在“信息咨询、计算服务、教育培训、软件开发”等方面为客户提供优质的一站式服务。



发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

评论列表(12)

联系我们

联系我们

(44)07934433023

在线咨询: QQ交谈

邮箱: info@bioengx.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部