还剩39页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第一章生物信息学引论
1.1引言生物信息学概念 20世纪是科学技术迅速发展的世纪,物理和化学的发展使我们可以清楚地认识物质的组成,从分子、原子、电子等各层次上深入地了解微观世界,而天文技术、空间技术的发展则使得我们可以了解地球以外的客观世界,以电子信息技术为龙头的工业技术的飞速发展,使得我们可以不断地改造世界,甚至为人类更加舒适地生活创造新的世界生命科学在20世纪同样也得到了发展,生理学、细胞生物学、分子生物学等学科的发展使我们从器官、组织、细胞、生物大分子等各个层次认识了生命的物质基础生物与其他物质有本质的区别,生物并非只是物质的简单堆积,生物体的生长发育是生命信息控制之下的复杂而有序的过程目前,我们对生命的奥秘还不甚了解,对生命信息的组织、传递和表达还知之甚少既然这牵涉到信息的组织、传递和表达,我们就可以用信息科学的方法和技术来尝试认识和分析生命信息 人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划人类基因组计划顺利实施,产生了大量的生物分子数据据权威机构统计,目前生物分子数据量每15个月翻一翻,生物分子数据发展的速度甚至超过了摩尔定律(即半导体芯片上的晶体管数量每18个月翻一翻)这些生物分子数据具有丰富的内涵,其背后隐藏着人类目前尚不知道的生物学知识充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,从而得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战生物信息学就是为迎接这种挑战而发展起来的一门新型学科,它是由生物学、应用数学、计算机科学相互交叉所形成的学科,是当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一 生物信息学(Bioinfor__tics)这个名词有许多不同的定义从字面上来看,生物信息学是将信息科学和技术应用于生物学生物信息学广义的概念是指应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学生物信息学狭义的概念是指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学的研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和__的科学性及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析结果进行新药设计一般提到的生物信息学是就指这个狭义的概念,更准确地说,应该是分子生物信息学(MolecularBioinfor__tics) 生物信息学以计算机、网络为工具,采用数学和信息科学的理论、方法和技术去研究生物大分子,其研究重点主要落实在核酸和蛋白质两个方面,包括它们的序列、结构和功能生物信息学以基因组DNA序列信息分析作为出发点,破译遗传语言,认识遗传信息的组织规律,辨别隐藏在DNA序列中的基因,掌握基因调控信息,对蛋白质空间结构进行模拟和预测,依据蛋白质结构和功能的关系进行药物分子设计与生物信息学相关的概念还有计算分子生物学(ComputationalMolecularBiology),计算分子生物学主要研究分析方法,__分析工具,促进生物分子数据的分析与生物信息学相关的另一个名词是生物计算(Biocomputing),生物计算特指用计算机技术分析和处理生物分子数据 生物信息学的产生一方面是由于生物科学和技术的发展,另一方面是由于人类基因组计划的实施其实,早在20世纪50年代生物信息学就已经形成萌芽,20世纪70年代就已经产生生物信息学的基本思想,但是生物信息学的真正发展则是在20世纪的90年代,在人类基因组计划的推动下,生物信息学才得以迅猛发展人类基因组计划产生的生物分子数据是生物信息学的源泉,而人类基因组计划所需要解决的问题则是生物信息学发展的动力生物分子信息 生物体是一个复杂的系统,生命过程是一个极端复杂的过程,需要物质和能量的支持生物体同时也是一个信息系统,该系统控制着生物的遗传、生长和发育所有的信息都存贮在生物体内的遗传物质中在生命科学的研究中,人们已经逐渐认识到,不仅需要用物理、化学和生物学方法研究生命的物质基础、能量转换、代谢过程等,还需要用信息科学方法研究生命信息特别是遗传信息的组织、__、传递、表达及其作用,否则难以理解生命的工作机制,难以揭示生命的奥秘从生物学的观点来看,细胞是生命的基本单位,而从信息科学的观点来看,细胞则是存贮、__和传递遗传信息的系统 生物系统通过存贮、修改、解读遗传信息和执行遗传指令形成特定的生命活动,促使生物体生长发育,产生生物进化从信息学的角度来看,生物分子是生物信息的载体,生物信息学主要研究两种载体,即DNA分子和蛋白质分子生物分子至少携带着三种信息,即遗传信息、与功能相关的结构信息、进化信息 DNA是遗传信息的载体DNA的核苷酸序列上存储着蛋白质的氨基酸序列编码信息,存储着基因表达调控的信息,存储着遗传信息遗传信息存储在DNA四种字符组成的序列中,生物体生长发育的本质就是遗传信息的传递和表达因此,可以说DNA序列包含着最基本的生命信息存储在DNA中的信息使无活力的分子组织成有功能的活细胞,进而构成能进行新陈代谢、生长和繁殖的生物体人们已经认识到遗传信息的载体主要是DNA[在少数情况下核糖核酸(RNA)也充当遗传信息的载体],控制生物体性状的基因是一系列DN__段一方面,DNA通过自我__,在生物体的繁衍过程中传递遗传信息另一方面,基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状在基因表达过程中,基因上的遗传信息首先通过转录从DNA传到RNA,然后再通过翻译从RNA传递到蛋白质基因控制着蛋白质的合成,从基因的DNA序列到蛋白质序列存在着一种明确的对应关系,而这种对应关系就是我们所知道的第一遗传__ 蛋白质分子在生物体内执行着各项重要任务,如生化反应的催化、营养物质的输运、__的识别与传递等蛋白质的功能多种多样,但是必须注意一点,即蛋白质功能取决于蛋白质的空间结构要了解和掌握蛋白质的功能必须首先分析蛋白质的结构,对于其它生物大分子也一样因此,蛋白质结构是一种重要的生物分子信息然而,蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中 作为信息的载体,DNA分子和蛋白质分子都打上了进化的烙印通过比较相似的蛋白质序列,如肌红蛋白和血红蛋白,可以发现由于基因__而产生的分子进化证据比较来自于不同种属的同源蛋白质,即直系同源蛋白质,可以分析蛋白质甚至种属之间的系统____,推测它们共同的祖先蛋白质生物分子信息具体表现为DNA序列数据、蛋白质序列数据、生物分子结构数据、生物分子功能数据等序列数据、结构数据是非常直观的,但是功能数据却是多变复杂的,如关于蛋白质功能的定性描述、蛋白质之间的相互作用描述、基因表达数据、代谢路径、调控网络等在所有类型的数据中,序列是最基本的数据,而且也是目前最多的数据 对生物分子数据及其关系的概括见左下图遗传信息从DNA序列向蛋白质序列的传递是人类已经基本了解的第一部遗传__,然而蛋白质序列与蛋白质结构也存在着一定的对应关系,蛋白质序列决定蛋白质结构,因此有人将从蛋白质序列到蛋白质结构的关系称为第二部遗传__ 第一部遗传__已被破译,但是,对于__究竟处于DNA序列的哪些区域还了解得不全面,对__的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少,对DNA遗传语言还有待于进一步探索对于第二部__,目前则只能用统计学的方法进行分析无论是第一部遗传__,还是第二部遗传__,都隐藏在大量的生物分子数据之中生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用 与一般信息相比,生物分子信息具有明显的特征首先,生物分子信息数据量大,例如DNA序列以千兆碱基(Gigabase,Gb)为单位随着信息处理技术进入现代生物学研究领域,随着互联网在全球的贯通,各种生物信息学数据库迅速发展,生物分子数据积累速度成倍增长其次,生物分子信息复杂,既有生物分子序列的信息,又有结构和功能的信息,既有生命本质信息,如基因,又有生命表象信息,如基因表达信息生物分子信息另一个重要的特征是,生物分子信息之间存在着密切的__,例如,基因序列与蛋白质序列之间的关系,生物分子序列与结构之间的关系,结构与功能之间的关系,基因变异与疾病之间的关系 对于生物分子信息,靠人工难以完成数据处理和分析的任务,更谈不上发现隐藏在这些信息之中的内在规律同时,对于生物分子信息,仅靠某一学科的专家,也无法进行分析研究,因此,在生物信息学研究领域中,要求生物学家、数学家和计算机科学工__协力合作,发展新的分子生物学计算理论和方法,运用先进的计算机技术收集、集成和分析处理生物信息生物信息学的研究目标和任务 揭示生物分子数据的内涵是生物信息学的长远目标生物分子数据具有深刻的内涵,数据之间存在着复杂的__,这些数据中蕴涵着丰富的生物学知识和生物学规律生物信息学的发展将揭示生物分子信息的本质,使人类彻底了解、掌握遗传信息的编码、传递及表达,从而加快人类了解自身的进程 目前生物信息学的主要任务是研究生物分子数据的获取、存贮和查询,发展数据分析方法主要包括三个方面第一是收集和管理生物分子数据,使得生物学研究人员能够方便地使用这些数据,并为信息分析和数据挖掘打下基础生物分子数据来自于生物学实验,应用信息学技术收集和管理这些数据,将各种数据以一定的表示形式存放在计算机中,建立数据库系统,并提供数据查询、搜索和数据通讯工具 第二是进行数据处理和分析通过数据分析,发现数据之间的关系,认识数据的本质,进而上升为生物学知识并在此基础上,解释与生物分子信息__、传递和表达有关的生物过程,解释在生物过程中出现的信息变化与疾病的关系,帮助发现新的药物作用目标,设计新的药物分子,为进一步的研究和应用打下基础生物分子信息处理流程见图
1.2目前生物信息学的主要研究对象是DNA和蛋白质在DNA分析方面,着重分析DNA序列中的基因信息及基因表达调控信息,分析基因表达数据,分析基因之间的相互作用关系,比较不同种属的基因组,研究基因组中非编码区域的生物学功能在蛋白质分析方面,着重分析蛋白质序列与蛋白质结构及功能之间的关系,预测蛋白质的结构和功能,研究蛋白质的进化关系 生物信息学的研究第三个方面是__分析工具和实用软件,解决具体的问题,为具体的生物信息学应用服务,例如,__生物分子序列比较工具、基因识别工具、生物分子结构预测工具、基因表达数据分析工具等 随着生物技术特别是分子生物学技术的发展,目前已经积累了大量的生物信息学数据,表
1.1列出了目前已经得到的各类数据量及生物信息学对各类数据处理的基本任务生物分子数据类型的不断增多及数据量的不断膨胀促进了生物信息学的研究与应用生物信息学研究成果不断涌现,各种生物信息源如雨后春笋层出不穷,而各种生物信息分析算法和工具也日益更新数据源数据量生物信息学任务DNA序列3000万条序列
400.0亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列100万条序列序列比较多重序列比对识别保守的序列模式进化分析大分子结构
2.5万个结构二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟基因组1300个基因组(其中大量是病毒和微生物基因组)标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析基因表达海量基因表达模式相关分析基因调控网络分析表达调控信息分析 掌握互联网上各种生物信息学数据库以及相关软件的使用技术已成为生物学和医学研究人员的迫切需要尤其是分子生物学的三大核心数据库—GenBank核酸序列数据库、SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,不仅是全世界分子生物学和医学研究人员获取生物分子的序列、结构和其他信息的基本来源,而且是发表自己序列或结构测定结果的重要媒体围绕这三大核心数据库还有众多面向各种特定应用的衍生数据库和分析软件,这些数据库分别从不同角度、以不同方式对各类生物信息学数据进行归纳、总结和注释,而各种分析软件为挖掘这些数据提供了有力的工具生物信息学的研究意义生物信息学研究是从理论上认识生物本质的必要途径,通过生物信息学研究和探索,可以更为全面和深刻地认识生物科学中的本质问题,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系基因序列到蛋白质序列的三联__关系是众所周知的,也是非常简单、非常确定的,然而,基因调控序列与基因表达之间的关系、蛋白质序列与蛋白质结构之间的关系则是未知的,也一定是非常复杂的破译和阐明生物信息的本质将使得人类对生物界的认识跨越一个新台阶生物信息学的出现将改变生物学的研究方式传统的生物学是一门实验科学,传统分子生物学实验往往是集中精力研究一个基因、一条代谢路径,手工分析完全能够胜任然而,随着分子生物学技术的发展,已经出现一些高通量的实验方法,如基因芯片,利用基因芯片一次可以获取上千个基因的表达数据生物学已经从一次只分析一个生物分子的时代跳跃到同时分析成千上万个生物分子的时代对于高通量的实验结果,必须利用计算机进行自动分析因而,在高通量实验技术出现的时代,生物信息学必然要介入生物学研究和实验再者,从生物分子数据本身来看,各种数据之间存在着密切的关系,如DNA序列与蛋白质序列、基因突变与疾病等,这些__反映了生物学的规律但是,这些关系可能是非常复杂的,是我们未知的,是简单的多元统计方法难以分析的对于这些复杂的关系,必须运用现代信息学的方法去分析,去研究因而,随着分子生物学研究的深入,必然需要生物信息学另外,现在全世界每天都会产生大量的核酸和蛋白质序列,不可能用实验的方法去详细研究每一条序列,必须首先进行信息处理和分析,去粗取精,去伪存真通过预处理,发现有用的线索,在此基础上进行有针对性、有明确目的的分子生物学实验因而,生物信息学在指导实验、精心设计实验方面将会发挥重要的作用科学家预言生物信息学将是21世纪生物学的核心生物信息学研究在医学上也有重要的意义通过生物信息学分析,可以了解基因与疾病的关系,了解疾病产生的机理,为疾病的诊断和治疗提供依据研究生物分子结构与功能的关系将是研制新药的基础,可以帮助确定新药作用的目标和作用的方式,从而为设计新药提供依据揭示人类及重要动植物种类的基因的信息,继而开展生物大分子结构模拟和药物设计,是当今国际上正在迅速发展的自然科学领域最重大的课题之一,这方面的研究不仅对认识生物___、对认识生物遗传、发育与进化的本质有重要意义,而且将为人类疾病的科学诊断和合理治疗开辟全新的途径,还可为动植物的物种改良提供坚实的理论基础第二章 生物信息学的生物学基础
2.1细胞各种生物体之间存在着差异,这种差异是由基因组所决定的尽管各种生物体的基因组不一样,但是,所有的生物体都具有一种共同的成分——细胞细胞是组成生物体的基本单位,细胞活动是生物活动的基础,细胞是生物体的遗传控制中心无论是多么复杂的生物,一切生命活动都是发生在细胞中的,生命的各种活动,如生长、发育、遗传等,都是在细胞基础上实现的根据细胞内有无细胞核,可以将细胞分为两类,一类是原核细胞,如细菌、蓝藻的细胞另一类是真核细胞,如酵母细胞原核细胞比真核细胞小,没有细胞核,结构也简单的多核酸与蛋白质是细胞内重要的物质核酸是细胞内的遗传物质,它们为细胞中的其它成分编码,编码信息一般贮存在DNA长链上对于真核生物,DNA主要聚集在染色质上有些病毒将遗传物质贮存在RNA上蛋白质是细胞生物功能的执行者作为酶,蛋白质可以大大加快细胞内各种化学反应的速度蛋白质还有很多其他的功能,如蛋白质可以进行细胞内外物质的运输,蛋白质在细胞内可以充当结构支撑物,蛋白质也是免疫系统的关键细胞与细胞以及细胞与外界环境不断进行着物质交换和信息传递,这些都依赖于存在于细胞表面的或跨膜的蛋白质这种物质交换和信息传递的分子基础在整个生命世界也是高度一致的在后面一节中,我们将详细介绍蛋白质下面简述一个细胞的主要构成部分细胞膜和细胞壁细胞膜又称质膜,它是细胞的表面边界,其主要构成物质是磷脂分子,而磷脂是一种双亲分子,其中拥有磷酸基团的一端亲水,而拥有脂肪酸长链的另一端疏水从结构上看,细胞膜由双层磷脂构成,两层磷脂分子都是疏水端向内,亲水端向外这样可以保护水和其他物质,防止其流失当然,细胞有特殊的通道与外界进行物质交换细胞膜最重要的特性之一是半透性,即有选择地允许物质通过扩散和主动运输等方式出入细胞,从而保证细胞的正常代谢细胞膜有许多功能,例如与外界进行物质交换,接受外界传导__等植物细胞在细胞膜之外还有细胞壁,它是无生命的结构,其组成成分是细胞分泌的产物,其功能是保护细胞细胞核细胞核是真核细胞的特征,所有真核细胞都具有细胞核细胞核包含以染色质形式而存在的遗传物质染色质上有处于不同构象的DNA长链,这些DNA长链被__白所包裹一层核膜包围着细胞核,使之与细胞的其他部分分离细胞核在细胞的代谢、生长和分化中起着重要的作用,它是细胞的控制中心细胞核内的核仁是随细胞__周期性产生和消失的圆形小体,核仁的中心是核仁组织区的特定DN__段,这是一些转录rRNA的基因核仁实际上是rRNA合成、__以及装配成核糖体亚单位的场所此外,细胞核内还有核骨架和核液等细胞质和细胞器在细胞膜与细胞核之间是透明、粘稠的胞质胶状聚__对于原核生物,细胞质包含一个细胞的所有物质;对于真核生物,细胞质包含除细胞核之外的所有物质,包括各种细胞器主要的细胞器有线粒体、叶绿体(植物细胞特有)、内质网、高尔基体以及溶酶体等,细胞质还含有核糖体、细胞质骨架、液泡等线粒体是细胞中的能量__厂,是细胞呼吸和能量代谢的中心,它含有细胞呼吸所需要的各种酶和电子传递载体,可以将各种养料的潜能转化成细胞实现各种活动所需的能量叶绿体是植物细胞特有的一种能量转换器,它是进行光合作用的中心内质网是细胞内的一个复杂的膜系统,具体说是由细胞内囊腔和细管彼此相连所形成的管道系统,它是蛋白质和脂肪合成的场所高尔基体是细胞内物质交换的中心,是细胞各种分泌物的最后__和包装的场所溶酶体的功能是消化从细胞外吞入的颗粒和细胞本身产生的碎渣,溶酶体内含有许多水解酶,可催化蛋白质、多糖、脂类以及DNA和RNA等大分子的降解核糖体是由蛋白质和RNA组成的复合物,它是蛋白质分子的合成场所真核生物细胞中普遍存在由蛋白质纤维组成的三维网架结构,即由微管、微丝和中间纤维构成的细胞质骨架微管与构建细胞壁、细胞定形、细胞内物质运输、信息传递及细胞的运动密切相关,微丝与肌肉收缩、细胞变形、细胞质流动等有关,中间纤维可能与细胞核定位、信息传递以及mRNA运输有关鞭毛和纤毛是细胞表面的附属物质,它们的功能是促进细胞运动(动、植物细胞模式图)生物体是由一个或者多个细胞所组成的微观体积的绿藻、衣藻是单细胞的生物,单个细胞含有生命活动所需要的全部物质与单细胞生物相比,多细胞生物的一个主要优点是细胞类型的分化分化的细胞具有各自特定的功能,执行特定的任务;而不同的细胞可以相互合作,完成单个细胞所不能完成的工作特定功能的细胞聚集在一起,形成组织人类有上皮组织、结缔组织、肌肉组织、神经组织等多种主要的组织类型典型的脊椎动物有200多种分化的细胞当一个细胞分化后,不能再转变成其他类型的细胞虽然各种细胞的功能不同,但是它们具有相同的遗传物质、相同的基因,不同的仅仅是基因的表达模式一个细胞发展到一定时间就要__,变成两个细胞在有丝__中,每个子细胞都得到一套完整的与亲细胞相同的遗传物质在细胞真正__之前,细胞核中的每一条染色体都__为两份在细胞__过程中,这些__的染色体彼此分开,并准确地分为完整的两组染色体,分别进入两个子细胞细胞从一次__开始到下一次__开始所经历的全过程称为一个细胞周期一个细胞的有丝__周期包括有丝__期(M期)和__间期,而__间期又分为合成期(S期)以及合成期前后的两个间期(G1期、G2期)有丝__为单细胞生物提供了一种繁殖的机制,为多细胞生物提供了生长、发育的机制另一种细胞__方式是减数__,它是生物体有性繁殖的基础二倍体生物的体细胞中含有两套遗传物质,其中一套来自于母体,另外一套来自于父体在减数__过程中,细胞首先进行遗传物质的__,然后进行两次__,产生4个新的细胞,即性细胞每个性细胞中的遗传物质只有1套,故性细胞又被称为配子当不同类型的配子(如精细胞、卵细胞)结合以后,形成合子(二倍体细胞),即受精卵受精卵是一个新生命的开始,从受精卵出发,通过细胞反复不断的有丝__和分化,逐步成长发育成新的个体例如,人类的体细胞是二倍体,有46条(23对)染色体,其中44条(22对)为常染色体,另外两条为性染色体经过减数__所产生的性细胞(__和卵子)是单倍体,仅有___染色体当__和卵子结合以后,形成二倍体的受精卵,孕育出一个新的生命 第六章 系统发生分析 系统发生(或种系发生、系统发育,phylogeny)是指生物形成或进化的历史系统发生学phylogenetics研究物种之间的进化关系,其基本思想是比较物种的特征,并认为特征相似的物种在遗传学上接近系统发生研究的结果往往以系统发生树(phylogenetictree)表示,用它描述物种之间的进化关系通过对生物学数据的建模提取特征,进而比较这些特征,研究生物形成或进化的历史在分子水平上进行系统发生分析具有许多优势,所得到的结果更加科学、可靠分子系统发生分析主要分成三个步骤分子序列或特征数据的分析、系统发生树的构造以及结果的检验
6.1分子系统发生与系统发生树分子系统发生分析系统发生学是进化生物学的一个重要研究领域,系统发生分析早在达尔文时代就已经开始从那时起,科学家们就开始寻找物种的源头,分析物种之间的进化关系,给各个物种分门别类经典系统发生学研究所涉及的特征主要是生物表型phenotype特征,所谓的表型特征主要指形态学的(结构的)特征,如生物体的大小、颜色、触角个数,也包括某些生理的、生化的以及行为习性的特征通过表型比较来推断生物体的基因型genotype,研究物种之间的进化关系但是,利用表型特征是有局限性的有时候关系很远的物种也能进化出相似的表型,这是由称为趋同进化convergentevolution的过程造成的例如,如果一个生物学家按照生物体是否有眼睛来构建进化树,那么他可能将人类、两翼昆虫和软体动物放在同一个进化组中,因为它们都有光探测器官在这个例子中,很明显这三种生物体并不具有密切的关系,在其它特征上有天壤之别,就是它们眼睛的构造也大相径庭这说明表型有时候会误导我们,表型相似并不总是反映基因相似用表型来判定进化关系的另一个问题是,对于许多生物体很难检测到可用来进行比较的表型特征例如,即使用显微镜检查,也难以发现细菌的明显特性当我们试图比较关系较远的生物体的时候,第三个问题又出现了,即什么样的表型特征能用来比较呢?例如,分析细菌、蠕虫和哺乳动物,它们之间的共同特征实在是少之又少随着人们对生物的认识从宏观发展到微观,科学家对物种分类的依据也从宏观上的形态发展到了微观上的分子,并且有了突破性的进展,系统发生分析进入分子层次科学家认为,现今世界上存在的核酸和蛋白质分子都是从共同的祖先经过不断的进化而形成的,作为生物遗传物质的核酸和作为生命机器的蛋白质分子中存在着关于生物进化的信息,可用于系统____的研究在分子水平上进行分析具有许多表型分析所没有的优势,所得到的结果更加科学、可靠分子系统发生分析直接利用从核酸序列或蛋白质分子提取的信息,作为物种的特征,通过比较生物分子序列,分析序列之间的关系,构造系统发生树,进而阐明各个物种的进化关系当然,这些分子不仅在序列上保留进化的痕迹,它们的结构也保留着进化的痕迹在分子水平上研究生物之间的关系早在20世纪初就开始了科学家发现,当把一个生物体的血液注射到另一个测试生物体中时,产生免疫反应的程度与这两个生物体的进化关系直接相关,由此最早正确地推断出人和猿比它们和其它灵长类动物有更近的共同祖先直到20世纪中期,分子数据才开始被广泛应用于系统发生研究蛋白质电泳使得我们可以在一些浅层特征上,如分子大小和电荷,来分离和比较相关的蛋白质20世纪60年代,蛋白质测序成为可能;20世纪70年代,研究者开始能够获得基因组信息,特别是DNA序列蛋白质序列和DNA序列为分子系统发生分析提供了可靠的数据在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制根据核酸和蛋白质的序列信息,可以推断物种之间的系统____其基本原理非常简单,从一条序列转变为另一条序列所需要的变换越多,那么,这两条序列的相关性就越小,从共同祖先分歧的时间就越早,进化距离就越大;相反,两个序列越相似,那么它们之间的进化距离就可能越小为了便于分析,一般假设序列变化的速率相对恒定关于地球上现代人起源的研究是一个典型而有趣的例子,科学家分析了取自世界不同地区许多人的线粒体DNA,分析结果表明,所有现代人都是一个非洲女性的后代线粒体DNA非常适合于系统发生分析,因为线粒体DNA从母体完全传到子代,不与父代DNA重组由于DNA分子非常稳定,所以我们既可以通过DNA分析活着的生物,也可以分析死去的生物,甚至分析已经绝种的生物当然,用细胞核基因来研究系统____时,遇到的一个严重的问题是,基因常常会被__,导致在个体基因组中,一个基因可能有若干个拷贝在进化过程中,这些拷贝各自演变,形成两个或更多的相似基因在对不同物种的基因进行比较时,如果选择这类基因,其分析结果的可靠性将存在问题所有的生物都可以追溯到共同的祖先,生物的产生和分化就像树一样地生长、分叉,以树的形式来表示生物之间的进化关系是非常自然的事可以用树中的各个分支点代表一类生物起源的相对时间,两个分支点靠得越近,则对应的两群生物进化关系越密切系统发生分析一般是建立在分子钟molecularclock基础上的生物随着时间的推进而演化,进化的速率被视为进化研究中的基本问题之一进化速率就是在某一段时间内的遗传改变量分子进化速率相关的分子钟的概念源于对蛋白质序列的研究在__的进化过程中,有着相似功能约束的位点的分子进化速率则几乎完全一致20世纪60年代最早由EmileZuckerkandl和LinusPauling所做的蛋白质序列的比较研究表明,蛋白质同系物的替换率就算过了千百万年也能保持恒定,因此他们将氨基酸的变异积累比做分子钟科学家们在比较几种动物的血红蛋白、细胞色素C的序列后注意到这些蛋白质的氨基酸取代速率在不同的种系间大致相同,即分子水平的进化存在恒速现象分子时钟在不同的蛋白质中运行的速率是不同的,但是两个蛋白质同系物的差异始终和它们__分化的时间成正比两序列间稳定的变异速率,不仅有助于确定物种间系统____,而且能够像利用放射性衰变考察地质年代那样,准确测定序列分化发展的时间不同物种间的蛋白质氨基酸序列差异随着分歧时间的加大而增加,而DNA序列也存在这种规律Kimura进一步提出了具体的分子进化观点对于各物种的每个蛋白质,如果用每个位点每年发生的氨基酸替换次数作为衡量分子进化的速率,则该速率是大致恒定的;功能上次要的分子(或者分子部分)的进化速率比功能重要的分子(或者分子部分)进化速率快;对现有分子结构或者功能破坏小的氨基酸替换比破坏力大的氨基酸替换发生得更加频繁尽管以上的分析给我们带来了很多希望,但是,Zuckerkandl和Pauling的分子时钟假说还是有争议的经典进化学家们认为形态的进化不够稳定,这与分子以稳定的速度变异不一致关于分化时间也有不同意见,这些意见对这个假说的核心即进化率是稳定的表示质疑系统发生树一般来说,系统发生树是一种二叉树所谓树,实际上是一个无向非循环图系统发生树由一系列节点(nodes)和分支(branches)组成,其中每个节点代表一个分类单元(物种或序列),而节点之间的连线代表物种之间的进化关系树的节点又分为外部节点(terminalnode)和内部节点(internalnode)在一般情况下,外部节点代表实际观察到的分类单元,而内部节点又称为分支点,它代表了进化__发生的位置,或代表分类单元进化历程中的祖先分类单元是一种由研究者选定的基本单位,在同一项研究中,分类单元一般应当一致在下面的讨论中,我们基本上以序列(DNA序列或蛋白质序列)作为分类单元树节点间的连线称为分支,其中一端与叶节点相连的为外支,不与叶节点相连的为内支系统发生树有许多形式可能是有根树(rootedtree),也可能是无根树(unrootedtree);可能是一般的树,也可能是二叉树;可能是有权值的树(或标度树,scaledtree,树中标明分支的长度),也可能是无权值树或非标度树,unscaledtree在一棵有根树中,有一个唯一的根节点,代表所有其它节点的共同祖先,这样的树能够反映进化层次,从根节点历经进化到任何其它节点只有唯一的路径系统发生分析中一个重要的差别是,有的能由系统发生树推断出共同祖先和进化方向,而有的却不能无根树没有层次结构,无根树只说明了节点之间的关系,没有关于进化发生方向的信息但是,通过使用外部参考物种(那些明确地最早从被研究物种中分化出来的物种),可以在无根树中指派根节点例如,在研究人类和大猩猩时,可用狒狒作为外部参考物种,树的根节点可以放在连接狒狒与人和大猩猩共同祖先的分支上二叉树是一种特殊的树,每个节点最多有两个子节点在有权值的树中,分支的长度(或权值)一般与分类单元之间的变化成正比,它是关于生物进化时间或者遗传距离的一种度量形式一般假设存在一个分子钟,进化的速率恒定系统发生树具有以下性质
(1)如果是一棵有根树,则树根代表在进化历史上是最早的、并且与其它所有分类单元都有__的分类单元;
(2)如果找不到可以作为树根的单元,则系统发生树是无根树;
(3)从根节点出发,到任何一个节点的路径均指明进化时间或者进化距离图
6.1a所示的是一棵有根树,而图
6.1b显示的是一棵无根树,图中的A、B、C、D为所研究的分类单元对于给定的分类单元数,有很多棵可能的系统发生树,但是只有一棵树是正确的,分析的目标就是要寻找这棵正确的树 基于单个同源基因差异构建的系统发生树称为基因树(genetree),这比称作物种树(speciestree)更为合理因为这种树代表的仅仅是单个基因的进化历史,而不是它所在物种的进化历史物种树一般最好是通过综合多个基因数据的分析结果而产生基因树和物种树之间的差异是很重要的,例如,假设只用HLA的等位基因来构建物种树,许多人将与大猩猩分在一起,而不是和其他人分在一起距离和特征用于构建系统发生树的分子数据分成两类
(1)距离(distan__s)数据,常用距离矩阵描述,表示两个数据集之间所有两两差异;
(2)特征characters数据,表示分子所具有的特征分子系统发生分析的目的是探讨物种之间的进化关系,其分析的对象往往是一组同源的序列这些序列取自于不同生物基因组的共同位点序列比对是进行同源分析的一种基本手段,是进行系统发生分析的基础,一般采用基于两两比对渐进的多重序列比对方法,如ClustalW程序通过序列的比对,可以分析序列之间的差异,计算序列之间的距离无论是DNA序列,还是蛋白质序列,都是由特定字母表中的字符组成的计算序列之间距离的一个前提条件是要有一个字符替换模型,替换模型影响序列多重比对的结果,影响系统发生树的构造结果在具体的分析过程中,需要选择一个合理的字符替换模型,参见第3章的各种打分模型或代价、距离模型距离(或者相似度)是反映序列之间关系的一种度量,是建立系统发生树时所常用的一类数据在计算距离之前,首先进行序列比对,然后累加每个比对位置的得分可以应用第3章介绍的关于序列比较方法,直接计算序列之间的距离如果在进行序列比较时使用的是打分函数或相似性度量函数,则需要将相似度(或者得分)转换成距离令Sij是序列i和序列j各个比对位置得分的加权和,一种归一化的距离计算公式为其中,Srij是序列i和j随机化之后的比对得分的加权和,__axij是两条序列所有可能的比对的最大值(当两条序列相同时,取最大值)两个序列归一化距离的值处于0和1之间,当两个序列完全一致时,距离为0;当两个序列差异很大时,距离接近于1如果在上式中令Srij=0,则计算公式变为为了适合于处理相似性较小的序列,可以进一步修改距离计算公式序列比对得分的加权和可以根据常用的打分矩阵获得,如果待处理的序列是蛋白质,则用PAM矩阵、BLOSUM矩阵等;如果待处理的序列是DNA或者RNA,则用等价矩阵、核苷酸转换-颠换矩阵或者其它具有非对称置换频率的矩阵距离是系统发生分析时所使用的一类数据,另一类数据就是所谓的离散特征数据离散特征数据可分为二态特征与多态特征二态的离散特征只有2种可能的状况,即具有与不具有某种特征,通常用“0”或“1”表示例如,DNA序列上的某个位置如果是剪切位点,其特征值为1,否则为0多态离散特征具有两种以上可能的状态,如核酸的序列信息,对序列中某一位置来说,其可能的碱基有A、T、G、C共4种可以将特征数据转换为距离数据如果建立所有可能状态之间相似性的度量,特征数据就很容易被转换成距离数据分子系统发生分析过程分子系统发生分析主要分成三个步骤
(1)分子序列或特征数据的分析;
(2)系统发生树的构造;
(3)结果的检验其中,第一步的作用是通过分析,产生距离或特征数据,为建立系统发生树提供依据系统发生树的构建方法很多种根据所处理数据的类型,可以将系统发生树的构建方法大体上分为两大类一类是基于距离的构建方法,利用所有物种或分类单元间的进化距离,依据一定的原则及算法构建系统发生树基本思路是列出所有可能的序列对,计算序列之间的遗传距离,选出相似程度比较大或非常相关的序列对,利用遗传距离预测进化关系这类方法有非加权分组平均法(unweightedpairgroupmethodwitharithmeticmeans)、邻近归并法(nei___orjoiningmethod)、Fitch-__rgoliash法、最小进化方法(minimumevolution)等另一类方法是基于离散特征的构建方法,利用的是具有离散特征状态的数据,如DNA序列中的特定位点的核苷酸建树时,着重分析分类单位或序列间每个特征(如核苷酸位点)的进化关系等属于这一类的方法有最大简约法(__ximumparsimonymethod)、最大似然法(__ximumlikelihoodmethod)、进化简约法(evolutionaryparsimonymethod)、相容性方法(compatibility)等对相似性和距离数据,在重建系统发生树时只能利用距离法离散特征数据通过适当的方法可转换成距离数据,因此,对于这类数据在重建系统发生树时,既可以用距离法,亦可以采用离散特征法根据建树算法在执行过程中采用的搜索方式,系统发生树的构建方法也可以分为三类第一类是穷尽搜索方法,即产生所有可能的树,然后根据评价标准选择一棵最优的树需要注意的是,系统发生树可能的个数随序列的个数急剧增加假设要为n个分类单元建立系统发生树,则可能的有根树个数(NR)和无根系统发生树个数(NU)可用下面的算式计算得到可以看到,随着n的增加,可能的有根系统发生树和无根系统发生树的数目迅速增加表
6.1中列出了一些n值,以及对应的有根树和无根树的数目当n大于等于15时,可能的系统发生树数目变得非常惊人,但是只有其中的一棵树代表了待分析的基因或者物种之间的真实进化关系,我们的目的就是找出这棵反映真实进化关系的树表
6.1对不同的n,可能的有根树和无根树数目数据数目有根树数目无根树数目211331415351051510344594252207025152134580467678757905853580625208200794532637__1559375221643095476699771875从计算量来看,穷尽搜索方法只能处理很少的分类单元当分类单元个数n大于一定值(如15),几乎不可能采用穷尽搜索的方式来求取最优树第二类方法是分支约束方法,即根据一定的约束条件将搜索空间限制在一定范围内,产生可能的树,然后择优这是人工智能技术中的一种空间搜索策略,这种搜索方式不需要搜索整个树空间,可大大提高搜索效率第三类是启发式或经验性方法,即根据先验知识或一定的指导性规则压缩搜索空间,提高计算速度这种方法能够处理大量的分类单元,虽然不能保证所构建的树是最优的,但实际结果往往接近于最优解当待分析的对象个数比较多时,必须采用分支约束方法或者启发式的方法在构造系统发生树时需要考虑进化假设和进化模型系统发生树的类型可能是有根树,这意味着其中的一个序列代表其他所有序列共同的祖先另一方面,系统发生树可能是无根树,意味着没有共同的祖先一般认为序列是随机进化的,序列中的所有位点的进化也是随机的而且是__的在进行具体的系统发生分析时,一般还要作一些假设序列必须是正确无误的,待分析的序列是同源的,所有的序列都起源于同一个祖先序列,并且它们不是共生同源(或平行进化)序列,在序列比对中,不同序列的同一个位点都是同源的另外,当两个物种在系统发生树上分化后,各自__进化发展对系统发生分析的样本也有一定的要求,要求样本足以反映感兴趣的问题,样本序列之间的差异包含了足以解决感兴趣的问题的系统发生信息通过某种算法构造好一棵系统发生树之后,需要对树的合理性和可靠性进行分析对于若干条序列,如果利用多种不同的分析方法进行系统发生分析,并且得到相似的进化关系,那么分析结果具有较高的可信度附录常用基本词汇表ABCDEFGHIJKLMNOPQRSTUVW A英文名词中文名词解释A(Adenine)腺嘌呤作为碱基的两种嘌呤中的一种activesite活化位点蛋白质三维表面催化作用发生的区域alig__ent比对为了确定两个同源核酸或蛋白质序列的累计差异而进行的配对称为比对alig__entofalig__ents比对的比对即比对的对象不是简单的序列,而是序列的比对alleles等位基因一个基因的不同版本 alphacarbonα碳在氨基酸中与侧链(R-基团)相连的中心碳原子alternativesplicing可变剪接从一个单独的hnRNA生成两个或多个mRNA分子的过程 aminoterminusN-terminal氨基端(N端)在一个多肽中,具有自由氨基的分子端,对应于基因的5-端anti-parallel反向平行表示相反的方向;在双链DNA中,这意味着如果一条链是5到3的,则其互补链方向是3到5的 Bbasepair碱基对
(1)在双链DNA中嘌呤和嘧啶之间的相互作用(特别指A和T之间,G和C之间);
(2)双链DNA序列长度的基本单位betaturnsβ转角在反向平行的β折叠片中,当β链反转方向的时候蛋白质内部形成的U型结构Bioinfor__tics生物信息学应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据Biocomputing生物计算本书中特指用计算机技术分析和处理生物分子数据BasicLocalAlig__entSearchToolBlast基本的局部比对搜索工具(Blast)一种常用的序列数据库搜索工具blottingandhybridization印迹和杂交将分子(通常是核酸分子)从凝胶转移到膜上,接着用绑定有特定感兴趣的分子的标记探针进行洗脱的过程bootstraptest自举检验对置信程度进行量化的检验branchandboundmethod分支约束法一种空间搜索方法,通过约束条件减少搜索空间,提高搜索效率branches分支在系统发生树中,通过分支连接两个节点CCCytosine胞嘧啶作为碱基的两种嘧啶中的一种 CAATboxCAAT盒大多数真核启动子具有的一段短序列,其片段模式为C-A-A-T,通常出现在转录起始位点上游80个核苷酸的地方许多因子可以与CAAT盒结合carboxyterminus羧基端在多肽链中,含有羧酸基团—COOH的分子端,对应于基因的3-端cDNA(ComplementaryDNA)cDNA互补DNA通过逆转录酶从RNA模板合成的DNAcDNAlibrarycDNA文库从mRNA序列中产生的所有DNA序列的__这种类型的文库只包含编码蛋白质的DNA(基因)__ntraldog__中心法则从基因的核酸序列中提取信息并以此合成蛋白质的过程(DNARNAprotein)character特征在系统发生树中,具有有限状态数的特征 chargedaminoacid带电氨基酸在一定的生物pH值下,带有正电或负电的氨基酸chro__tin染色质在真核生物细胞核内部由大量DNA以及与此相关的组蛋白组成的近似均匀混合物chromosome染色体在原核生物,包含一个细胞基因组的DNA分子称为染色体在真核生物中,与蛋白质复合在一起、包含大量遗传信息的线型DNA分子clone克隆无性繁殖,如生物体克隆、基因克隆等cloning克隆在类染色体载体中插入特定的DNA一段,使得它们可以在活细胞中得以保存并__Codingsequen__编码序列DNA序列中为蛋白质编码的部分Codon__子基因编码部分的三核苷酸组合,对应于一个特定的氨基酸 Complementary互补的
(1)通过氢键连接的核苷酸对(G和C;A和T;A和U);
(2)核苷酸链的反向平行对 ComputationalMolecularBiology计算分子生物学主要研究分子生物学数据的分析方法,__分析工具confor__tion构象蛋白质的空间构象consensussequen__一致序列在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列conservedsequen__保守序列在进化过程中基本保持不变的核酸与蛋白质序列,它们往往与特定的功能相对应Contig连续交叠群基因组测序过程中将许多短的序列片段链接成很长的连续片段convergentevolution趋同进化指相似基因型或表型性状的__进化例如,眼睛在各种生物体(如哺乳动物、软体动物以及昆虫)中__进化,结构各异corefold核心折叠构成蛋白质空间形状的基本模式CpGislandCpG岛在哺乳类动物基因组中的一个500bp到3000bp的区域,该区域中的二核苷酸CpG的含量比其他区域的正常水平要高通常,与此相关的是真核生物管家基因的启动子区域crystal晶体由分子的规则排列组成的固体结构Ddegeneracy简并性指某些氨基酸可以被一个以上的三联__子编码的特性 denaturedprotein变性蛋白质指蛋白质因为受热作用或者去污剂或尿素等化学作用而失去了正常的三级结构和四级结构的结果deoxyribonucleicacidDNA脱氧核糖核酸(DNA)由相连的核苷酸组成的双链生物二聚体,其核苷酸含有脱氧糖基DNA是遗传的分子基础 dipeptide二肽由一个肽键连成的两个氨基酸disulfidebond二硫键二硫键是蛋白质中两个半胱氨酸侧链之间形成的化学键DNADNA参见脱氧核糖核酸do__in域(结构域)指蛋白质结构中相对__的、具有特定功能的空间区域dotplot点阵图对两条序列进行图形化比较的方法图形中的一系列的斜线对应于序列相似的区域dynamicprogramming动态规划一种可以有效地探求一定复杂问题的各种可能的解决方案的程序;它将一个问题合理分解成一些小的子问题,然后利用部分计算解得到最终答案Eenhan__r增强子可以与真核转录因子特异性结合的DNA序列片段增强子序列可以在任何一个方向上起到逐渐增加转录水平的作用enzyme酶一种生物催化剂(通常是蛋白质),能通过降低活化能使特定的化学反应可以更快地进行EST(Expressedsequen__tags)EST表达序列标签从cDNA的5或3端获取的短的DNA片段euchro__tin常染色质指真核生物中组蛋白高度甲基化(乙酰化?)并且DNA低度甲基化的开放染色质exhaustivesearch穷举搜索对问题所有可能的解进行评估exon外显子一个hnRNA分子的各个部分,它们被剪接后连在一起形成mRNA expressionprofile表达谱 基因在不同时空的表达模式Ffamily家族在整个长度范围内有多于50%的氨基酸序列相同的蛋白质称为一个家族fold折叠通常和术语“结构模体”有近似的含义,但是特别暗示在两个或更多的蛋白质中具有相似二级结构的大区域fourfolddegeneratesite四重简并位点指那些改变一个核苷酸为任何其它三个中的一个都对核糖体将氨基酸插入到蛋白质没有影响的__子位点GG(Guanine)G(鸟嘌呤)两种嘌呤中的一种gappenalty空位罚分为了减少序列比对中出现的空位,对空位进行减分的操作gaps空位在两个具有共同祖先序列的比对中,为了反映插入或删除所引入的一个或一些破折号__content__含量在DNA序列中,核苷酸G、C的组成相对于A、T的比例gelelectrophoresis凝胶电泳指在电场的作用下,使带电分子穿过聚丙烯酰胺、淀粉或者琼脂糖凝胶,从而根据其大小和带电性进行分离的过程gene基因DNA或RNA中,代表特定功能的某一段核苷酸序列;一种遗传的功能单元,它控制着一个或多个性状的传递和表达genecontent基因内容一个基因组所包含的所有基因称为该基因组的基因内容geneexpression基因表达利用存储在DNA中的信息来合成RNA分子,进而生成相应蛋白质的过程geneidentification基因识别利用各种方法识别基因组中的基因序列geneontology基因本体论关于基因和蛋白质知识的标准词汇,是今后实现各种与基因相关数据的统
一、进行数据转换、开展数据挖掘的基础geneorder基因次序基因在染色体上的排列顺序genetree基因树基于同源基因分析得到的系统发生树genetic__p遗传图谱以具有多态性的遗传标记为“路标”,以遗传学距离为图距的基因组图谱genome基因组一个生物体全部遗传物质的总和genomics基因组学研究基因组序列,研究序列与功能的关系,研究基因组中所包含的遗传信息genomiclibrary基因文库包含有基因组DNA插入的克隆片段__genotype基因型一个个体或群体全部或部分的基因组成globalalig__ent全局比对在全局范围内对两条序列进行比对打分的方法GU-AGruleGU-AG规则这是一条与真核生物蛋白质编码基因相关的规则,说的是RNA内含子序列5端的起始两个核苷酸总是5-GU-3,并且其3端的最后两个核苷酸总是5-AG-3Hhairpinturn发夹环在RNA链中自身反转允许形成分子内碱基配对的位置HashtableHash表一种数据结构,可以存储多个数值;不像矩阵要用整型索引获取存在其中的数,hash表可以用任何类型的值(包括字符串)作为索引Hidden__rkovModelsHMM隐马尔柯夫模型(HMM)在序列分析中常用的一种数学模型heterochro__tin异染色质指转录停滞、紧密包裹着的染色质;和高度DNA甲基化以及低度的组蛋白乙酰化有关heuristicmethods启发式方法反复试验,利用经验解决问题的一种方法homologs同源序列具有公共祖先的序列horizontalgenetransfer基因水平转移基因从一个物种传递到另一个物种的过程虽然病原体和转座子通常被疑似为导致它的原因,但是基因这种运动的机制仍然未知Hu__nGenomeProjectHGP 人类基因组计划通过全球合作,绘制人类基因组的全部序列图谱housekeepinggene管家基因发育过程中在任何时间、在任何器官都高度表达的基因H-Phydrophobic-polarmodelH-P(疏水极性)模型以固定半径的单个原子表示蛋白质中的一个氨基酸残基的简单网格模型hydrogenbonding氢键由于极性共价键的作用,使得电荷作用发生轻微分离而形成的分子相互作用hydrophilic亲水的很容易在水性溶剂中溶解;字面上理解,就是和水易处的hydrophobic疏水的难以和水分子相互作用,字面上就是厌水的hydrophobicaminoacid疏水氨基酸含有一个全部由碳和氢组成的R基团的氨基酸;它不可能和水分子形成氢键hydrophobiccollapse疏水折叠将一个多肽链折叠成一个压缩的构象,从而使疏水残基远离溶剂的过程,简单的说,是由疏水作用而引起的肽链折叠Iindel插入或删除插入或删除inferredan__stor25推断祖先通过系统发生树推断而得到的祖先inferredtree推断树对三个或三个以上的同源序列的系统____的描述,是它们真正关系的一个近似infor__tive有信息(位点)在简约性分析中的提供有用信息位点;与此对应的是无信息位点ingroup内群(或内部物种)一个物种或一个分歧不大的物种系列;与此相对应的是外群Inhibitor抑制剂任何可以降低酶促反应速度的物质initiationcomplex起始复合物一系列自身相互作用的转录因子形成复合体,作用与一个基因的启动子区域,从而促进基因的转录启动initiatorInrsequen__起始序列真核基因中与转录起始位点密切相关的核苷酸;在人类中,该一致序列是5-YYCARR-3insertionsequen__插入序列指除了自身转座需要外不再包含有任何信息的转座子元件;当__入到一个基因中,它将破坏其正常的结构以及基因的功能internalnode内部节点在一棵系统发生树中,不对应真正数据的节点,这样的节点代表两个或多个__家系的公共祖先intrinsicterminator固有终止子在原核生物中终止转录的特殊__;指在新转录的RNA中可以形成二级结构的核苷酸序列,其后跟随一串尿嘧啶intron内含子在剪切时被切除的内部序列;出现在真核基因的初级转录物hnRNAs中,而不是在mRNA中isochores等值区在真核基因组中具有相似碱基比例的区域JjunkDNA垃圾DNA没有意义的DNA序列;也指那些目前还不知道其作用的序列Kkilobasekb千碱基DNA序列的长度单位,1000个碱基为1kbLleadcompound先导化合物指在药物设计中一个可行的候选分子LINELINE长散布(核)元件linkage__p连锁图谱见“遗传图谱”localalig__ent局部比对一种寻找匹配子序列的序列比对方法lockandkeyapproach锁-钥方法两个对接分子的构象被固定的对接方法logodds__trix对数几率矩阵矩阵元素是每一个字符替换概率的对数的矩阵M__tchscore匹配得分序列比较算法对相同字符匹配设置的得分__ximumlikelihoodapproach最大似然法指在一系列的序列比对中,考虑每一个字符被替代的概率的一种系统发生学方法;也是一种基于纯统计的系统发生重建方法methylation甲基化一个甲基—CH3附着在一个核苷酸的含氮碱基或者蛋白质上microarray微阵列在一个固体基片上的已知位置固定了DNA探针的有序阵列microsa____ite微卫星在基因组中很多非常短的核酸序列出现的区域,例如串接出现5-CA-3的重复序列;通常在个体间变化很大MIAMEtheminimuminfor__tionaboutamicroarrayexperiment微阵列实验的最小信息为了实现微阵列数据共享和交流而制定的数据存储标准minisa____ite小卫星指在基因组中长度从5个碱基对到几十个碱基对重复序列串连出现的区域;在个体间变化可能很大mi__atchscore失配打分在一个比对算法中,对于不相同的字符被比对时所赋予的罚分molecularclock分子钟这是一个有争议性的假设,指对于所有的进化谱系,任何一段给定的DNA序列以相同的速率突变molecularclones分子克隆指一段DNA序列的多数相同拷贝,一般地在例如质粒或病毒等载体中进行,使得它们可以在细菌培养物中生存并传播moleculargraphics分子图形学分子图形学是进行分子模型化的一项重要技术,由于分子图形学和其它计算化学方法的相互结合,使得分子模型化方法取得成功molecularmodeling分子模型化分子模型化是利用计算机模拟分子结构、研究分子之间相互作用的一种技术MonteCarloalgorithmMonteCarlo算法一种尝试复杂问题的各种可能解的方法,例如将能量最小作为评价一般解的方法motif序列模式指核酸或者蛋白质序列中具有保守性的序列片段multiplesequen__alig__ent多重序列比对三个或更多条序列的比对mutation突变由于DNA__或者修复错误导致核苷酸序列发生的变化;严格地讲,通过选择性过滤在物种代间发生的变化Nnativestructure天然结构在一个活细胞内,特定的蛋白质通常折叠成的唯一结构naturalselectionselection自然选择个体间由于适应性的差异而形成的基因传给子代的差异现象;导致等位基因频率改变的进化nearestnei___orclassifier最近邻分类法一种根据物体特征相似性对它们进行分类的一种统计学方法negativeregulation负调控可以阻止基因转录发生的调控nei___or-joiningmethod邻近归并法一种聚类方法,在聚类之前,所有对象以单个节点表示,然后逐步合并相邻节点nucleotide核苷酸核酸分子的基本单位,其组成方式为碱基-戊糖-磷酸neuralnetwork神经网络一种可以通过学习来仿效一些神经元的功能计算机程序;能够用来根据统计相似性预测数据集的特定属性neutralmutation中性突变不影响生物适应性的突变__R__R核磁共振用于解析蛋白质结构的技术nodes节点在一棵系统发生树中,以节点代表一个分类单元(物种、序列)nondegeneratesite非简并位点突变总是导致蛋白质氨基酸序列发生替换的__子位置nonsynonymoussubstitution异义替换可以使氨基酸发生变化的__子中核苷酸的替换OopenreadingframeORF开放阅读框(ORF)一段由__子组成的核苷酸序列,在相同阅读框中没有终止__子出现operatorsequen__操纵子序列原核生物调控蛋白结合的与基因启动子相关的一段核苷酸序列operon操纵子包含有结构基因和调控元件、在转录中产生mRNA分子的一组相关的基因originationpenalty起始罚分用来评估一系列新空位的罚分;序列比对中空位罚分的一部分orthologs直向(直系)同源物那些具有相似性的序列,由于物种形成__而使得它们从一个祖先序列__进化outgroup外群(外部参考物种)指与一组生物体很少相关的一个物种或一组物种PPAMunitPAM单位一种进化单位;特别地,指被观察的对象中每100个残基发生一个替换所需要的平均进化时间PairwiseSequen__Alig__ent序列两两比对对两条序列进行编辑操作,通过字符匹配和替换,或者插入和删除字符,使得两条序列达到一样的长度,并使两条序列中相同的字符尽可能地一一对应paralogs共生(旁系)同源物那些具有相似性的序列,它们都是被__的祖先基因的后裔parsimony简约性指只需少量突变__激发就可以使一条进化路径比其他路径更有优先权的过程patterndiscrimination____ysis模式判别分析是一种统计方法,主要根据观察到的一个或多个序列模式来对序列进行分类physical__p物理图谱关于基因组中特异性序列排列和间距的信息,建立物理图谱实际上是为全基因组测序建立“路标”,是测序的前一步工作peptide肽一条含有多个氨基酸的链peptidebond肽键在肽连接中碳氮之间的共价键phar__cogenomics药物基因组学一门利用个体的遗传信息获取最好的药物疗效,同时具有最小副作用的研究领域phenotype表型生物体由于和其基因型和环境相互作用而产生的可见属性phospho___sterbond磷酸二酯键连接一个核苷酸的磷酸基团和另外一个的脱氧核糖的共价键phylogenetictree系统发生树对三个或三个以上基因或生物体之间的进化关系的图形化表示pointac__ptedmutationPAM点接受突变(PAM)指被自然选择接受的突变polaraminoacid极性氨基酸通常指侧链上包含氧和(或)氮并且很容易和水形成氢键的氨基酸polarbond极性键在一个带全正电的分子和另一个带全负电的分子之间发生的相互作用polyadenylation多聚腺苷酸化指用一个基因核苷酸序列中不被读出的一段长约250个碱基A组成的序列替代真核hnRNA3端的过程polycistronic多顺反子包含多个基因的遗传信息(顺反子)polymerasechainreaction聚合酶链反应一种在体外快速、大量地合成给定DN__段的技术,首先将双链DNA分离成两个互补的单链,再用DNA聚合酶将每一个单链合成双链,如此重复下去Polynucleotide多核苷酸一条核苷酸的聚合链;DNA或RNA分子polypeptide多肽一条氨基酸的聚合链;蛋白质position-specificscoring__trix位置特异性打分矩阵一个矩阵,矩阵中的每一个数表示某个特定的氨基酸占据多序列比对中某个位置的频率positiveregulation正调控一个调控蛋白的结合使得RNA聚合酶更容易启动转录的情况pri__rystructure一级结构组装成蛋白质的氨基酸序列PrincipalComponent____ysis,PCA主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题probe探针一块被标记的可以特异性和感兴趣的分子发生相互作用的DNA(或RNA或抗体)promotersequen__启动子序列指和一个基因相关联的可以被RNA聚合酶识别的序列proteinbackbone蛋白质骨架多肽链中的非侧链原子proteinelectrophoresis蛋白质电泳根据蛋白质的基本特征(如大小、带电性)在电场下分离并比较蛋白质的方法proteinsequencing蛋白质测序对给定蛋白质的氨基酸进行测序的过程;通常根据Ed__n方法,每次从多肽的羧基端移走一个氨基酸proteinthreading蛋白质结构预测线索法首先假设多肽的构象,然后根据得到的结构计算出其能量的方法通过计算各种已知结构的能量,可以得出与给定蛋白质序列最符合的构象因为该结构是假设的而不是计算出来的,所以线索法有时指的就是“反向蛋白质折叠”proteome蛋白质组一个生物体的所有蛋白质总和Proteomics蛋白质组学蛋白质组学是研究细胞内所有蛋白质及其动态变化规律的科学pseudogene伪基因发生突变之后失去功能以及转录活性的基因pseudoknot伪结当环内的碱基和环外的碱基形成配对的时候就是一个假结体;RNA结构中最难预测的类型purine嘌呤碱基具有双环结构的核苷酸;通常指鸟嘌呤和腺嘌呤pyrimidine嘧啶碱基具有单环结构的核苷酸;通常指胞嘧啶、胸腺嘧啶和尿嘧啶Qquaternarystructure四级结构当若干个多肽相互结合时分子内部发生的相互作用;相互作用的蛋白质形成的整体结构Rreadingframe阅读框在蛋白质编码基因中,以起始__子开始、终止__子结束的一段线性__子序列regulatory调控在特定的条件下允许或阻止一个基因的表达;对应于结构蛋白residue残基作为多肽链一部分的氨基酸;在关于蛋白质或肽的语境中,残基通常指氨基酸restrictionenzymes限制性(内切)酶指在它们遇到特定的核苷酸序列的时候在DNA分子中引入双链缺口的蛋白质restriction__pping限制性酶切图谱用两个或多个限制性酶进行同步消化来决定DNA分子中的限制性酶识别序列的相对位置restrictionsite限制性(酶切)位点被限制性酶识别的核苷酸序列;限制性酶识别位点retroposon逆转录转座子一个被RNA媒介传输的转座元件retrotransposition逆转录转座包含一个RNA媒介的转座reversetranscriptase逆转录酶一种用来将RNA变成DNA的特殊的酶ribosome核糖体指负责催化翻译过程的蛋白质和rRNA的复合体ribozyme核酶指可以加速特定化学反应(例如自切割)的RNA分子RNA(RibonucleicAcid)核糖核酸RNA是单链的核酸分子RNApolymeraseRNA聚合酶负责转录的酶;将DNA分子中的信息转移到RNA分子中rootedtree有根树含有一个被认为是公共祖先的节点、并且该节点到其他节点只存在唯一路径的一棵系统发生树Ssa____iteDNA卫星DNA指相对于其他的基因组数据而言,重复性很大、存储的信息量很少的真核DNA片段scaledtree标度树指分支长度和相邻节点对之间的差异成比例的系统发生树scoring__trix打分矩阵在序列比对中,用来对每一个非空位置进行打分的矩阵secondarystructure二级结构指源自蛋白质一级结构的α螺旋、β折叠等局部结构特征Self-Organizing__p,SOM自组织映射神经网络自组织特征映射是类似大脑思维的一种人工神经网络模型,它是一种竞争学习算法semiglobalalig__ent准全局比对指出现在序列头尾的空位不影响比对得分的序列比对sequen__序列
(1)DNA或RNA分子核苷酸的线性排列或者蛋白质中氨基酸的排列;
(2)对分子中的核苷酸或者氨基酸的线性排列进行定序的操作sequencing测序测定生物分子序列的过程称为测序serial____ysisofgeneexpressionSAGE基因表达的系列分析SAGE用来评估基因表达水平的实验方法sidechain侧链附着在氨基酸中心碳原子的短链或者原子基团silen__r沉默子通过沉默子可以抑制基因的表达,或对基因进行有选择性的表达SINESINE短散布(核)元件SNPs(Singlenucleotidepolymorphi__s)SNPs(单核苷酸多态性)SNPs对人类遗传学研究和医学应用具有重要的意义,如人类种群遗传学的研究,疾病易感性分析,药物基因组研究,个体化医疗SOMSelforganization__p自组织映射神经网络一种无监督学习方法,可以完成对物体的聚类speciestree物种树表示物种之间关系的系统发生树spli__osomes剪接体真核生物中负责剪接的酶复合体splicing剪接指剪掉真核hnRNA内部序列(内含子)再将与之相邻的外显子连接起来的过程startcodon起始__子引导原核和真核生物核糖体开始翻译mRNA的三联__子(特别是AUG)stem茎干一个RNA分子内部碱基配对的区域stopcodon终止__子不再使核糖体插入氨基酸而使mRNA翻译终止的__子(特别是UGAUAG和UAA)structuralprotein结构蛋白通常指可以维持细胞或组织形状的蛋白质,它们可以为骨骼或连接组织提供支撑的硬骨架STS(sequen__taggedsite)序列标记位点这些位点所对应的序列在基因组中可以作为特定的标记substitution替换在一定水平上通过选择过滤的突变Sum-of-Pairs(SP)逐对加和(SP)是一种多重序列比对的评价模型supe___mily超家族在一定程度上具有序列相似性,可以反映远古进化关系的蛋白质家族的__super-secondarystructure超二级结构若干二级结构可能以特殊的几何组合出现在蛋白质结构中,这些组合起来的结构单元称为超二级结构supportvector__chine,SVM支持向量机是一种从少量样本中提取分类信息的机器学习方法synonymoussubstitution同义替换指在编码序列水平上不影响蛋白质氨基酸序列发生改变的核苷酸替换Systemsbiology系统生物学在系统水平研究生物学过程和网络,例如遗传和代谢路径TT(Thymine)T(胸腺嘧啶)在DNA分子中作为碱基的一种嘧啶targetidentification靶标识别一个特定的病原体寻找赖以生存和繁衍的生物分子的过程terminalnode外部(叶)节点指系统发生树中在分支的末端代表分类单元的节点tertiarystructure三级结构折叠多肽链的整体三维形状topology拓扑结构一个分子的拓扑特征,即它的构型transcription转录基因表达的第一步,即基因的RNA拷贝transcriptome转录组生物体RNA序列的全部__Transformeddistan__method距离变换法一种基于距离的系统发生学重建的方法,它可以考虑不同谱系中的不同进化率transition转换一种嘌呤(A或G)代替另一种嘌呤,或者一种嘧啶(C或T)代替另一种嘧啶translation翻译将RNA核苷酸序列中的信息转化为蛋白质氨基酸序列的过程transversion颠换用嘌呤(G或A)代替嘧啶(C或T)的突变,反之亦然tripletcode三联__在核糖体进行翻译的过程中用来产生一个氨基酸的三核苷酸组twofolddegeneratesite双重简并位点__子位置,在这一点上,两种不同的核苷酸翻译成同一种氨基酸,但是如果替换成另外两个核苷酸,则会导致翻译成不同的氨基酸Uuninfor__tive非信息(位点)在简约性分析中,序列比对中的一个位点所对应的树在这个点上引起的突变数目都相同,则称此位点是无信息的,与此对应的是“信息(位点)”unrootedtree无根树一类指定了节点之间的相互关系,但没有指明进化发生方向的系统发生树unscaledtree非标度树一类指明了叶结点的相对的亲缘关系,但是没有表达分离他们的相对变化次数的系统发生树unweighted-pair-groupmethodwitharithmeticmeanUPG__非加权分组平均法(UPG__系统发生树重建中的一种方法,它采用连续聚类算法逐步建立树upstreampromoterelement上游启动子元件与蛋白质而不是RNA聚合酶相结合的真核基因启动子相关的核苷酸序列VVectorAlig__entSearchTool(VAST)向量比对搜索工具VAST)一种结构比较搜索工具Wword单词在序列搜索中,一段固定长度的序列称为一个单词一些数据库搜索算法将一段查询序列分成几段固定长度的单词,然后根据这些单词在序列数据库中进行搜索。