您的位置 首页 工具使用

蛋白质三维结构比较——如何深度地挖掘进化信息

蛋白质序列的比较很是常见,可用的工具也有很多,可以参考我们早前的推文 。当两条蛋白质序列的相似度大于30%时,他们的三级结构以及生物学功能也可推测为很接近的。然而,当序列的相似性低于30%时,我们就很难只依靠序列比对获取有效的信息了[1]。此时,三维结构的比较以及功能位点的比对会有利于推断蛋白质之间的进化关系。 科研前辈   蛋白翘楚   如是说

结构比对(structure alignment)并非单纯的将两个蛋白质重叠(superposition)在一起。将两个蛋白质重叠的前提条件是已知了两个结构中一些位置相互对应的氨基酸,而结构比对不需要任何类似的信息。因此,结构比对是非常有价值的分析手段,能够用来推测同源性很低的两个蛋白质之间的进化关系。

结构比对的输出数据

对两个蛋白质的三级结构进行比对,能够获得最直接的结果是二者相互重叠的一系列三维坐标。二者重叠的结构能够用来计算RMSD(root mean square deviation)值以及其他更复杂的一些相似性指标,比如global distance test (GDT)[2]。RMSD值衡量的是两个结构之间的区别程度。为了给大家一个比较直观的认识,这里给出一个RMSD的参考值。两个序列相似度在50%以上的蛋白质,结构相差大约在1 Å(Å是距离单位,1Å = 0.1 nm)。比对的结果中也会包括一个序列比对文件,根据这个文件可以计算两个输入结构中一致的氨基酸的比例,即可用来检测两条序列的相似度。

结构比对的方法

有很多可以用来进行结构比对的软件以及数据库,例如DaLI,combinational extention (CE),SSAP,FATCAT,FLEXPROT等等, 每种工具的特性以及原理可以参考PROTEOPEDIA数据库[3]。这里我们就不详细介绍这些工具的计算原理以及分析方法了(其实我也不懂,惭愧脸),只给大家举个栗子。

201611101

RCSB PDB的网站上有一个蛋白质结构比较的工具,与其说这是个工具,不如说是个平台,因为在这里你可以选择多种我们上面说过的方法,主页在这里http://www.rcsb.org/pdb/workbench/workbench.do
点击进入后是这个样子的:

201611102

在ID1,2两个框内输入你想进行比对的两个结构的PDB ID。我们以依赖辅助因子ThDP家族的转酮醇酶(transketolase)和丙酮酸脱羧酶(pyruvate decarboxylase)作为例子。这两个酶的序列同源性只有15%,但属于同一家族,同时都需要依赖ThDP作为辅助因子才能发挥功能。

然后我们选择一个方法:

201611103

从图中可以看到,这些方法分为两类:第一类是用来进行一级序列比较的方法;第二类是用来进行结构比较的方法。可供选择的方法有那么多,我们使用一个比较常用的方法jCE Cicular Permutation进行结构比较(注:CE与CE Circular permutation是有区别,其区别之处形象地说是,CE Circular permutation可以用一个蛋白质的N端去和另一个蛋白质的C端进行比较,而CE算不可以)。 然后点击Compare, 即会得到下面的两部分结果。

1基本数据部分

201611106

首先是一些基础数据,这些数据的意义如下:

第一行:进行比对的蛋白质结构的基本信息。

第二行:P值, 指的是本次结构比对中得分可能到score以上的概率。Score的意义见第六行。

第三行:twists指的是并非将蛋白质当作刚性的不可变的结构,而是允许蛋白质不同的区域进行不同的结构转化以便两个蛋白质能够进行比较,这充分反应了蛋白质的灵活性。

第四行:Equ指的是两个蛋白质结构上相互对应的氨基酸数量。

第五行:两个结构之间的RMSD值,也就是位置差距的多少。

第六行:Score指的Raw alignment score,也是用来衡量两对比序列相似程度的标准,分值越大两序列相似性越大。其计算过程会考虑到两条序列的一致,相似,不同,空位等信息。具体可见下面例子:

201611104

第七行:进行比对的氨基酸的长度。

第八行:TM-Score是用来检测两个蛋白质结构相似性的指标,这个指标主要考虑的是整体折叠情况的相似性,而非局部结构的相似性。TM-Score在0到1之间,1意味着二者完全的一致。当score低于0.17时,意味着二者是随机选择的两个结构,没有关系。当score大约0.5时,意味着二者有相似的折叠情况[4]。

第九行:整个比对过程出现的gap的数量,以及其占整个蛋白质的百分比。

第十行:位置相互对应且一致的氨基酸的百分比。

第十一行:位置相互对应且相似的氨基酸的百分比。

2序列对比文件部分

201611105

第二部分是两条互相对应的序列,图中的符号的意思如下:

| = 结构上相对应,且一致的残基

: = 结构上相对应,且相似的残基

. = 结构上相对应,但是二者不相似的残基

通过这个序列,我们就能够知道两个蛋白质中哪些氨基酸的位置是相互对应的,尽管这些氨基酸可能是不同的。

作为入门级读物,有关蛋白质三级结构比对以及软件的使用情况就先介绍到这里了,具体细节需要大家实践来看,欢迎留言讨论。

References

[1] Chung SY, Subbiah S (1996) A structural explanation for the twilight zone of protein sequence homology. Structure 4:1123–1127

[2] https://en.wikipedia.org/wiki/Global_distance_test

[3] Andreas Prlic; Spencer Bliven; Peter W. Rose; Wolfgang F. Bluhm; Chris Bizon; Adam Godzik; Philip E. Bourne (2010) Pre-calculated protein structure alignments at the RCSB PDB website Bioinformatics 26: 2983-2985 http://proteopedia.org/wiki/index.php/Structural_alignment_tools

[4] http://zhanglab.ccmb.med.umich.edu/TM-score/


管理员邮箱
:info@bioengx.org;管理员微信:bioengxadmin; 
内容和图片来自网络。欢迎留言讨论哦,如需再转载,请联系管理员。


扫描下方二维码关注BioEngX官方微信公众平台
qrcode_for_gh_1d4074a25cf9_258

作者: 于浩然

本科及硕士毕业于天津大学,博士毕业于伦敦大学学院。现就职于浙江大学化学工程与生物工程学院,PI,博导。研究方向为蛋白质工程、生物催化剂、合成生物学等。



发表评论

您的电子邮箱地址不会被公开。

联系我们

联系我们

(44)07934433023

在线咨询: QQ交谈

邮箱: info@bioengx.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部
Designed by

best down free | web phu nu so | toc dep 2017