登陆注册
48552800000081

第81章 生物信息学(2)

以上我们从构建数据库的形式与内容的角度简要地说明了生物大分子数据库的基本特点。而从数据库代表知识的原始性来看,则生物大分子数据库可分为原始数据库或一级数据库和二级数据库。一级数据库是指来源于生物学实验测定的原始生物学数据并通过简单归类整理和注释而集成的数据库。一般的,一级数据库构建是一个比较漫长的过程,比如蛋白质结构数据库PDB 到目前为止已有三十多年,而其中的数据现在还一直在更新,它的最大特点是可以让实验工作者不需要重新测定这类数据。比如,某个蛋白质的三维结构已被搜集在PDB 库中,则一般来说就不需要对它重新测定。二级数据库是在一级数据库的基础上,应用适当的生物信息学或其他方法对一级数据进行计算、整理、归类,将最终结果集成一个相应的数据库,比如SCOP 数据库就是对PDB 数据库中的蛋白质按“类、折叠方式、超家族及家族”进行分类而构成的二级数据库;HSSP 数据库的一个主要内容就是对相关蛋白质进行序列比对,将比对结果构建相应的数据库。与一级数据库类似,构建二级数据库的主要目的也是将有关生物信息学研究的成果保存下来,供后人使用,从而达到后人不需要重复前人的工作。比如BLOCKS 数据库就是一系列多重序列比对数据块,人们根据它构建了BLOSUM 得分矩阵以及提取保守序列模式。

18.2.1序列数据库

生物大分子序列数据库主要是蛋白质序列数据库与基因序列数据库,最常用的序列数据库便是Swissprot,它们主要可从网站:http ://www.expasy.org/中找到。

该数据库由SIB (Swiss Institute of Bioinformatics,瑞士生物信息研究所)管理。

Swiss‐Prot 建于1986年,从1987年开始,主要由瑞士Geneva 大学医学生化系(现为瑞士生物信息研究所)和EMBL 数字图书馆(现为欧洲生物信息研究所EBI)建立。Swiss‐Prot 是一个经典的蛋白质序列数据库。它力求提供高水准的蛋白质注释(主要包括蛋白质功能的描述、功能区结构、翻译后修饰、变种等),尽可能与其他数据库整合在一起,同时尽可能减少其冗余度。与其他数据库相比,它至少有如下三个特点:

(1)它包括核心数据和注释部分。其中核心数据包括蛋白质本身序列;参考文献;分别(主要包括蛋白质的来源)。而注释部分主要包括:蛋白质功能;翻译后的修饰;功能模块和位点如钙连接区域,ATP 接合位点,Z 指纹(zinc fingers)等;蛋白质二级结构,四级结构如同类二聚体(homodimer),异类三聚体等;与其他蛋白质的相似性;与此缺失有关的疾病;序列冲突(sequence conflicts),变种等。

(2)最小的冗余度。

(3)与60个不同数据库的整合。

TrEMBL 是Swiss‐Prot 数据库的计算机注释的增补部分,包括EMBL 中没有被Swiss‐Prot 所收载的核苷酸序列翻译的增补部分。截止2007年2月20日,UniProtKB/Swiss‐Prot 51.7共收载了259034条序列条目,包括94408644个氨基酸残基,涉猎152164篇文献。

而在2007年3月6日公布的UniProtKB/TrEMBL 35.0版,则收载了3874166个蛋白质序列条目,共有1260291226个氨基酸残基。

18.2.2结构数据库

确切地说,现有的生物大分子结构数据库只有一个即PDB 数据库。其他的生物大分子结构数据库都是在PDB 数据库基础上分化而来的,如SCOP 数据库,CATH 数据库等就是在PDB 数据库基础上通过人工或自动分类产生的。因此,在结构数据库中,我们着重介绍PDB 数据库。

PDB(Protein Data Bank)即蛋白质结构数据库,是国际上惟一的生物大分子结构数据库。它于1971年由美国Brookhaven 国家实验室建立。PDB 蛋白质数据库所收集的生物大分子三维结构主要通过X 射线衍射和核磁共振(NMR)实验测定,包括结构数据、文献、一级二级结构信息。目前PDB 数据库的维护由结构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics,RCSB)负责管理,主要成员为Rutger大学,圣地亚哥超级计算中心(San Diego Supercomputer Center)和美国标准化研究所(National Institutes of Standards and Technology,NIST)。PDB 数据库可在网站上获取。

1)PDB 数据库的基本格式

下面是一个典型的PDB 数据库格式的描述。

PDB 中所有的分子空间结构信息文件的格式基本上都是一样的。文件由若干记录组成,每一记录有80个字符(包括空格)。开头的6个字符标明该记录的名称,现将各记录的意义分别叙述如下:

HEADER——该记录列出分子所属功能类,正式收入PDB 日期以及该分子的判别码。

OBSLTE——该记录列出已被新分子文件取代的一些旧的分子的有关信息。

COMPND——该记录列出分子名。

SOURCE——该记录说明分子来源。

AUTHOR——该记录列出提供坐标者的姓名。

REVDAT——该记录列出文件历次修改的日期等有关信息。

SPRSDE——该记录列出说明此文件取代旧文件的有关信息。

JRNL——该记录引用与确定该分子空间结构有关的主要文献。

REMARK——该记录为关于该分子文件的其他信息。其中:REMARK1专用于列出与该结构有关的其他文献,REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息。

SEQRES——列出蛋白质一级结构。

HET——列出非标准基团或残基的信息,主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下:1-3列是“ HET”;8-10列是非标准基团表示符;13列是链表示符号;14-17列顺序号;18列是插入码;21-25列是非标准基团中的原子数目;31-70列为注释。

HELIX——列出分子中有关α 螺旋的信息。1-6是“ HELIX”;8-10是顺序号;12-14螺旋表示符;16-18残基名;20链表示符;22-25残基序号;26插入码;28-30残基名;32链表示符;34-37残基序号;38插入码;39-40螺旋类别;41-70注释。

SHEET——列出分子中有关β 折叠的信息,其格式如下:1-5为SHEET ;8-10股号;12-14折叠表示符;15-16股数;18-20残基名;22链表示符;23-26残基序列号;27插入码;29-31残基名;33链表示符;34-37残基序号;38插入码;39-40类型判别码;42-45原子名;46-48残基名;50链表示符;51-54残基序号;55插入码;57-60原子名;61-63残基名;65链表示符;66-69残基序号;70插入码。

TURN——列出分子中有β 转角(发夹结构)的信息。

SSBOND——列出分子中有关二硫键的信息。

SITE——列出重要功能部位。1-4SITE ;8-10序号;12-14功能部位表示符;16-17组成功能部位的残基数;18-61组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成,则可以增加SITE 记录以包含全部残基的位置信息,但增加的记录其功能部位表示符(12-14列)就与原来记录一致。

CRYST——该记录列出关于晶体结构的单晶胞参数及空间群标识。

ORIGX——该记录列出将下交坐标变换为用户送交坐标的参数。

SCALE——由正交坐标变换为分数坐标的参数。

MATRIX——列出代表非晶体学对称性的变化参数。

TVECT——列出无限共价连接结构的变换向量。

ATOM——列出标准基团的各原子的坐标。这是PDB 的核心。其格式如下:1-4ATOM ;7-11原子序列号;13-16原子名;18-20残基名;22链表示符;23-26残基序列号;31-38原子X 坐标;39-46原子的Y 坐标;47-54原子Z 坐标;55-60占有率;61-66温度因子。

SIGATM——列出原子参数的标准差;ANISOU——列出各向异性温度因子。

SIGUIJ——列出各向异性温度因子的标准差;TER——列出链的末端残基。

有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对应的原子就不是“ATOM”,而是“HETATM”,表明这些原子是外来原子,不是蛋白质本身的。

2)PDB 数据库中有关蛋白质结构的获取

蛋白质结构数据的获取有下列几条途径。第一种描述如下:

(1)打开网站,可得界面,输入所需要的蛋白质代码如“1g0v”,然后点击“Site Search”按钮,得到下一个界面。

(2)再点击左上面的“Download Files”,得到的界面。

(3)点击“PDB File”就可以得到你所需要的PDB 结构。这里右边有相应的蛋白质结构图。

第二种主要是在Linux 操作系统中可以比较方便地使用,具体命令如下:$ wgetqftp://ftp.rcsb.org/pub/pdb/data/structures/all/pdb/pdb1g0v.ent.Z。

通过这个命令可以得到蛋白质文件:pdb1g0v.ent.Z,然后解压缩即:$ gunzip pdb1g0v.ent.Z,就可以得到文本文件的蛋白质结构文件。

第三种则是通过匿名用户登录网页,然后应用“get”命令下载你所要的文件。

通过上述方式,可以得到所需要的蛋白质结构。

18.2.3分子疾病数据库

分子疾病数据库主要是描述与疾病有关的生物大分子与小分子数据库,由于疾病种类繁多,在分子疾病数据库这一小节中,仅列出相关的数据库名。

18.2.4生物信息学算法

生物信息学实质就是数学算法,一般的,所有的数学算法均是生物信息学算法,但是,各种数学算法其本身的特点及应用范围与生物学本身特点决定了有些算法在生物学中应用范围及频率较高,有些则应用频率相对较低。

比如人工神经网络方法早在1988年就有人将其用于蛋白质二级结构的预测,我们早在20世纪90年代初也比较系统地作了这方面的研究。在三级结构预测中的应用主要是用于预测模型的质量,如一致性预测中的Pcons1,折叠识别法中的GenTHREADER 等。

再如最优化方法,像共轭梯度法,拟牛顿法等在蛋白质天然构象预测中可以用于最低能量构象。而最优化方法中的动态规划法则被用于生物大分子序列分析如蛋白质、核酸的比对中,由此派生出一系列生物大分子序列比对方法,而且已成为生物信息学的支柱算法,因此本章重点介绍生物信息学中的配对序列比对方法。

1)配对序列比对方法(Pairwise Sequence Alignment)

序列比对方法不仅是蛋白质天然构象预测中一种最基本的方法,而且也是生物大分子序列分析的基本手段。它在蛋白质天然构象预测中所起的作用就是寻找待预测蛋白质与模板蛋白质之间的保守区。从这个意义上来说,序列比对方法在这两个领域中所起的作用是一样的。因此,这里首先介绍为什么要进行生物大分子序列分析。

众所周知,生物大分子包括DNA、RNA和蛋白质。虽然它们的结构组成及其在生物体内的功能不同,但它们有一个共同的特点:均为有限的小分子单元通过不同的排列组合方式完成。DNA 由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种基本碱基通过一定的排列方式组成。RNA 则由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(T)四种基本碱基排列组合而成。而蛋白质则由20个基本氨基酸按一定的排列方式通过肽键组合而成。理论上,通过不同的排列方式它们可以形成不同的DNA、RNA和蛋白质分子。比如,对一条100个长的DNA 链,理论上可以形成4100约1.6×1060条链,但实际生物体内,尽管其长度要远远大于100,但相应的DNA 链数要比这个数字小得多,而且非常有限。同样的,RNA 与蛋白质也存在这种情况。即地球上存在的生物大分子数目是非常有限的。产生这种状况的主要原因是“蛋白质的结构与功能的进化”。换言之,生物的复杂性是通过现有的生物大分子的修饰与重组形成,而不是通过不断产生新的生物大分子形成的。

同类推荐
  • 培养青少年受益一生的好素质

    培养青少年受益一生的好素质

    本书针对当今社会青少年应具备的各种素质,从生活、学习、做事、思维等方面进行了详细的阐述,为广大青少年读者提出了从小培养良好素质的具体办法。
  • 新课标课外快乐阅读丛书——快乐心灵的电影故事

    新课标课外快乐阅读丛书——快乐心灵的电影故事

    快乐阅读,陶冶心灵,这对于提高广大中小学生的阅读写作能力,培养语文素养,促进终身学习等都具有深远的意义。现代中小学生不能只局限于校园和课本,应该广开视野,广长见识,广泛了解博大的世界和社会,不断增加丰富的现代社会知识和世界信息,才能有所精神准备,才能迅速地长大,将来才能够自由地翱翔于世界的蓝天。
  • 爱的冬天不会有寒冷

    爱的冬天不会有寒冷

    《冰心奖获奖作家精品书系》是一套由获奖名家倾情打造的,写给中国少年儿童的小小说文集。所选作品在注重文学性和可读性的同时,更注重作品的价值取向。本丛书既可作为青年一代文学素养训练的读本,又可作为学生作文写作的范文,是通往语文课堂的“直达快车”。《爱的冬天不会有寒冷》是冰心奖获奖作家的获奖作品集,精选了“微型小说之父”刘国芳,“新世纪中国小小说风云人物榜”金牌作家蔡楠等作家的作品,谈亲人之爱、友情之爱以及对工作的热爱。书中有放弃大好工作机会,去贫困山区支教的善良女孩;有小小年纪便承担家庭重担,含辛茹苦供弟弟上大学的姐姐;也有为了乡村孩子的教育,默默无私奉献的老师。爱的冬天不会有寒冷,徜徉其中,我们仿佛行走在爱的世界里,四季如春,心生美好和温暖。冰心说,有了爱,就有了一切。亲爱的孩子,愿你心中也有一份真挚的爱。
  • 学生主题阅读空间(自然人文卷)小博士讲名花

    学生主题阅读空间(自然人文卷)小博士讲名花

    “学生主题阅读空间(自然人文卷)”系列丛书,是一套介绍全世界自然人文地理的丛书。内容包括世界遗产、公园、城堡、瀑布、广场、剧院等。该丛书图文并茂,分类详细,更加方便学生的阅读,是一套很有实用价值的阅读读物。
  • 校长新锐领导力丛书-校长的素养修炼

    校长新锐领导力丛书-校长的素养修炼

    校长的领导力,在学校的可持续发展的进程中有着重要的不可替代的作用。校长的领导力渗透在学校管理的每一个地方,有时既是有形的,有时又是无形的。这种领导力的影响不仅仅表现在现在,还可以延续到将来。
热门推荐
  • 崽崽今天也很乖

    崽崽今天也很乖

    【甜宠】【快穿】【双洁】崽崽生气了离家出走怎么办?当然是去哄回来了。盛陌嗓音温柔,带着低低的笑意,“崽崽,回家。”这是一个哄生气的男朋友回家的故事。#快穿恋爱小甜饼##高甜无虐放心食用##作者简介废具体请移步正文#
  • 南宫缘

    南宫缘

    千层枯叶偎荒草,残云落日浮归鸟。芳菲易尽,红颜易老,情字心中绕。秋色老,红花少。唯独漂萍心无定,浪迹天涯不意回。曾经的相遇,相知,相惜,相伴,相随是前世修来的缘分。即使今生不能相伴走向天年,也曾留下美好的回忆。不悔遇见,不悔前世千万次回眸。
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 悲欢江湖

    悲欢江湖

    江湖上从来都是有悲有欢,有聚有合,有爱有恨的。但无论怎样,江湖上总是有友情!亲情!爱情!这一点是不会变的!总之,看了再说吧……(新人作者,多请包涵)。
  • 鸟报今年春色好

    鸟报今年春色好

    你当时怎么看上我的?也许是因为你来的那天春天也来了。这算什么原因啊!那……你就是我的春天。
  • 第七只猴子

    第七只猴子

    公元3025年,人类在生命科学上取得了重大突破,通过量子计算机的庞大计算,人类找到了决定人类寿命的X基因,同年人类摆脱了困扰千年的能源危机,此后的10年里人类社会发生了重大变化,人类开始变得长生不老,开始了外星移民拓荒,但是与之相伴的是日益增加的人类犯罪活动。在那个时代,每个普通人都能调用更多资源,用很小成本获取破坏力极强的武器。似乎文明毁灭之墙就这样迫近,为了应对这样的局面,世界所有国家把基因改造写进了法律。自此自然生育的人类变成了低等的残次者,而去除了暴力基因和加入高智能基因的改造人成了社会主流。如果进化是完全消灭感性而走向完全的理性,如果未来只是排除了不确定而选择了确定性,那人类存在的意义是什么呢?人类的进化之路又在哪里?
  • 乱世沉浮

    乱世沉浮

    冯小怜,传奇般的女子,她的一生经历了三个男人,三个朝代。可是,这个看似活的多姿的女子,心中又是否会有许多无奈呢?有人说她是红颜祸水,有人说她是狐媚君主,可谁又知,君主又何尝不是情愿的呢?这个女子的无奈与悲哀,又有多少人知道呢?“如果有来生,我只愿再叫你一声高玮哥哥。”
  • 超级开头

    超级开头

    平庸、胸无大志的主角,一次歇斯底里的怒吼,竟然得到了一个来自“土卫六”的超级神器……从此,一切都不一样了!看主角怎样从“解马赛克”软件起家,一步步成为这个世界的大鳄!解马赛克软件一出,世界不再有码!《超级开头》读者群:110656287(Linыゥ清水提供~)新人新书,如果喜欢,请收藏、推荐~
  • 懂博弈的女人最幸福

    懂博弈的女人最幸福

    每个女人都梦想着一生沐浴在幸福之中,可是,幸福却像一个猜不透的谜一样,跟女人捉着迷藏,并不是每位女性都可以在生活、事业、爱情、家庭等方面都比较成功。有的女人一心想在事业上取得一番成就,也有了事业,可她的感情路却走得极难。有的女人将赌注全部押在婚姻上,也把孩子照顾得很好,可是丈夫却背叛了她。而那些既要事业又要家庭的女人,则疲于奔命,也不知幸福是何滋味。