以上我们从构建数据库的形式与内容的角度简要地说明了生物大分子数据库的基本特点。而从数据库代表知识的原始性来看,则生物大分子数据库可分为原始数据库或一级数据库和二级数据库。一级数据库是指来源于生物学实验测定的原始生物学数据并通过简单归类整理和注释而集成的数据库。一般的,一级数据库构建是一个比较漫长的过程,比如蛋白质结构数据库PDB 到目前为止已有三十多年,而其中的数据现在还一直在更新,它的最大特点是可以让实验工作者不需要重新测定这类数据。比如,某个蛋白质的三维结构已被搜集在PDB 库中,则一般来说就不需要对它重新测定。二级数据库是在一级数据库的基础上,应用适当的生物信息学或其他方法对一级数据进行计算、整理、归类,将最终结果集成一个相应的数据库,比如SCOP 数据库就是对PDB 数据库中的蛋白质按“类、折叠方式、超家族及家族”进行分类而构成的二级数据库;HSSP 数据库的一个主要内容就是对相关蛋白质进行序列比对,将比对结果构建相应的数据库。与一级数据库类似,构建二级数据库的主要目的也是将有关生物信息学研究的成果保存下来,供后人使用,从而达到后人不需要重复前人的工作。比如BLOCKS 数据库就是一系列多重序列比对数据块,人们根据它构建了BLOSUM 得分矩阵以及提取保守序列模式。
18.2.1序列数据库
生物大分子序列数据库主要是蛋白质序列数据库与基因序列数据库,最常用的序列数据库便是Swissprot,它们主要可从网站:http ://www.expasy.org/中找到。
该数据库由SIB (Swiss Institute of Bioinformatics,瑞士生物信息研究所)管理。
Swiss‐Prot 建于1986年,从1987年开始,主要由瑞士Geneva 大学医学生化系(现为瑞士生物信息研究所)和EMBL 数字图书馆(现为欧洲生物信息研究所EBI)建立。Swiss‐Prot 是一个经典的蛋白质序列数据库。它力求提供高水准的蛋白质注释(主要包括蛋白质功能的描述、功能区结构、翻译后修饰、变种等),尽可能与其他数据库整合在一起,同时尽可能减少其冗余度。与其他数据库相比,它至少有如下三个特点:
(1)它包括核心数据和注释部分。其中核心数据包括蛋白质本身序列;参考文献;分别(主要包括蛋白质的来源)。而注释部分主要包括:蛋白质功能;翻译后的修饰;功能模块和位点如钙连接区域,ATP 接合位点,Z 指纹(zinc fingers)等;蛋白质二级结构,四级结构如同类二聚体(homodimer),异类三聚体等;与其他蛋白质的相似性;与此缺失有关的疾病;序列冲突(sequence conflicts),变种等。
(2)最小的冗余度。
(3)与60个不同数据库的整合。
TrEMBL 是Swiss‐Prot 数据库的计算机注释的增补部分,包括EMBL 中没有被Swiss‐Prot 所收载的核苷酸序列翻译的增补部分。截止2007年2月20日,UniProtKB/Swiss‐Prot 51.7共收载了259034条序列条目,包括94408644个氨基酸残基,涉猎152164篇文献。
而在2007年3月6日公布的UniProtKB/TrEMBL 35.0版,则收载了3874166个蛋白质序列条目,共有1260291226个氨基酸残基。
18.2.2结构数据库
确切地说,现有的生物大分子结构数据库只有一个即PDB 数据库。其他的生物大分子结构数据库都是在PDB 数据库基础上分化而来的,如SCOP 数据库,CATH 数据库等就是在PDB 数据库基础上通过人工或自动分类产生的。因此,在结构数据库中,我们着重介绍PDB 数据库。
PDB(Protein Data Bank)即蛋白质结构数据库,是国际上惟一的生物大分子结构数据库。它于1971年由美国Brookhaven 国家实验室建立。PDB 蛋白质数据库所收集的生物大分子三维结构主要通过X 射线衍射和核磁共振(NMR)实验测定,包括结构数据、文献、一级二级结构信息。目前PDB 数据库的维护由结构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics,RCSB)负责管理,主要成员为Rutger大学,圣地亚哥超级计算中心(San Diego Supercomputer Center)和美国标准化研究所(National Institutes of Standards and Technology,NIST)。PDB 数据库可在网站上获取。
1)PDB 数据库的基本格式
下面是一个典型的PDB 数据库格式的描述。
PDB 中所有的分子空间结构信息文件的格式基本上都是一样的。文件由若干记录组成,每一记录有80个字符(包括空格)。开头的6个字符标明该记录的名称,现将各记录的意义分别叙述如下:
HEADER——该记录列出分子所属功能类,正式收入PDB 日期以及该分子的判别码。
OBSLTE——该记录列出已被新分子文件取代的一些旧的分子的有关信息。
COMPND——该记录列出分子名。
SOURCE——该记录说明分子来源。
AUTHOR——该记录列出提供坐标者的姓名。
REVDAT——该记录列出文件历次修改的日期等有关信息。
SPRSDE——该记录列出说明此文件取代旧文件的有关信息。
JRNL——该记录引用与确定该分子空间结构有关的主要文献。
REMARK——该记录为关于该分子文件的其他信息。其中:REMARK1专用于列出与该结构有关的其他文献,REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息。
SEQRES——列出蛋白质一级结构。
HET——列出非标准基团或残基的信息,主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下:1-3列是“ HET”;8-10列是非标准基团表示符;13列是链表示符号;14-17列顺序号;18列是插入码;21-25列是非标准基团中的原子数目;31-70列为注释。
HELIX——列出分子中有关α 螺旋的信息。1-6是“ HELIX”;8-10是顺序号;12-14螺旋表示符;16-18残基名;20链表示符;22-25残基序号;26插入码;28-30残基名;32链表示符;34-37残基序号;38插入码;39-40螺旋类别;41-70注释。
SHEET——列出分子中有关β 折叠的信息,其格式如下:1-5为SHEET ;8-10股号;12-14折叠表示符;15-16股数;18-20残基名;22链表示符;23-26残基序列号;27插入码;29-31残基名;33链表示符;34-37残基序号;38插入码;39-40类型判别码;42-45原子名;46-48残基名;50链表示符;51-54残基序号;55插入码;57-60原子名;61-63残基名;65链表示符;66-69残基序号;70插入码。
TURN——列出分子中有β 转角(发夹结构)的信息。
SSBOND——列出分子中有关二硫键的信息。
SITE——列出重要功能部位。1-4SITE ;8-10序号;12-14功能部位表示符;16-17组成功能部位的残基数;18-61组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成,则可以增加SITE 记录以包含全部残基的位置信息,但增加的记录其功能部位表示符(12-14列)就与原来记录一致。
CRYST——该记录列出关于晶体结构的单晶胞参数及空间群标识。
ORIGX——该记录列出将下交坐标变换为用户送交坐标的参数。
SCALE——由正交坐标变换为分数坐标的参数。
MATRIX——列出代表非晶体学对称性的变化参数。
TVECT——列出无限共价连接结构的变换向量。
ATOM——列出标准基团的各原子的坐标。这是PDB 的核心。其格式如下:1-4ATOM ;7-11原子序列号;13-16原子名;18-20残基名;22链表示符;23-26残基序列号;31-38原子X 坐标;39-46原子的Y 坐标;47-54原子Z 坐标;55-60占有率;61-66温度因子。
SIGATM——列出原子参数的标准差;ANISOU——列出各向异性温度因子。
SIGUIJ——列出各向异性温度因子的标准差;TER——列出链的末端残基。
有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对应的原子就不是“ATOM”,而是“HETATM”,表明这些原子是外来原子,不是蛋白质本身的。
2)PDB 数据库中有关蛋白质结构的获取
蛋白质结构数据的获取有下列几条途径。第一种描述如下:
(1)打开网站,可得界面,输入所需要的蛋白质代码如“1g0v”,然后点击“Site Search”按钮,得到下一个界面。
(2)再点击左上面的“Download Files”,得到的界面。
(3)点击“PDB File”就可以得到你所需要的PDB 结构。这里右边有相应的蛋白质结构图。
第二种主要是在Linux 操作系统中可以比较方便地使用,具体命令如下:$ wgetqftp://ftp.rcsb.org/pub/pdb/data/structures/all/pdb/pdb1g0v.ent.Z。
通过这个命令可以得到蛋白质文件:pdb1g0v.ent.Z,然后解压缩即:$ gunzip pdb1g0v.ent.Z,就可以得到文本文件的蛋白质结构文件。
第三种则是通过匿名用户登录网页,然后应用“get”命令下载你所要的文件。
通过上述方式,可以得到所需要的蛋白质结构。
18.2.3分子疾病数据库
分子疾病数据库主要是描述与疾病有关的生物大分子与小分子数据库,由于疾病种类繁多,在分子疾病数据库这一小节中,仅列出相关的数据库名。
18.2.4生物信息学算法
生物信息学实质就是数学算法,一般的,所有的数学算法均是生物信息学算法,但是,各种数学算法其本身的特点及应用范围与生物学本身特点决定了有些算法在生物学中应用范围及频率较高,有些则应用频率相对较低。
比如人工神经网络方法早在1988年就有人将其用于蛋白质二级结构的预测,我们早在20世纪90年代初也比较系统地作了这方面的研究。在三级结构预测中的应用主要是用于预测模型的质量,如一致性预测中的Pcons1,折叠识别法中的GenTHREADER 等。
再如最优化方法,像共轭梯度法,拟牛顿法等在蛋白质天然构象预测中可以用于最低能量构象。而最优化方法中的动态规划法则被用于生物大分子序列分析如蛋白质、核酸的比对中,由此派生出一系列生物大分子序列比对方法,而且已成为生物信息学的支柱算法,因此本章重点介绍生物信息学中的配对序列比对方法。
1)配对序列比对方法(Pairwise Sequence Alignment)
序列比对方法不仅是蛋白质天然构象预测中一种最基本的方法,而且也是生物大分子序列分析的基本手段。它在蛋白质天然构象预测中所起的作用就是寻找待预测蛋白质与模板蛋白质之间的保守区。从这个意义上来说,序列比对方法在这两个领域中所起的作用是一样的。因此,这里首先介绍为什么要进行生物大分子序列分析。
众所周知,生物大分子包括DNA、RNA和蛋白质。虽然它们的结构组成及其在生物体内的功能不同,但它们有一个共同的特点:均为有限的小分子单元通过不同的排列组合方式完成。DNA 由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种基本碱基通过一定的排列方式组成。RNA 则由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(T)四种基本碱基排列组合而成。而蛋白质则由20个基本氨基酸按一定的排列方式通过肽键组合而成。理论上,通过不同的排列方式它们可以形成不同的DNA、RNA和蛋白质分子。比如,对一条100个长的DNA 链,理论上可以形成4100约1.6×1060条链,但实际生物体内,尽管其长度要远远大于100,但相应的DNA 链数要比这个数字小得多,而且非常有限。同样的,RNA 与蛋白质也存在这种情况。即地球上存在的生物大分子数目是非常有限的。产生这种状况的主要原因是“蛋白质的结构与功能的进化”。换言之,生物的复杂性是通过现有的生物大分子的修饰与重组形成,而不是通过不断产生新的生物大分子形成的。