常用的基因组预测注释方法及其优缺点

摘 要:

基因结构的预测对于发现新基因、了解基因组结构规律具有重要意义。目前对基因组的预测注释方法主要有三种:第一种是利用已有的转录数据来识别基因组中基因编码区的转录作图法,第二种是利用计算算法从统计学的角度来预测基因和调节元件的基因结构统计建模法,第三种是比较其它物种基因组序列中的保守区域进行基因预测的同源建模法。

关键词: , ,

基因结构的预测对于发现新基因、了解基因组结构规律具有重要意义,是各类基因组计划的重要内容。目前,无论是对于原核生物还是真核生物,对基因组的预测注释方法主要有三种:第一种是利用已有的转录数据来识别基因组中基因编码区的转录作图法;第二种方法是利用计算算法从统计学的角度来预测基因和调节元件的基因结构统计建模法;第三种是比较其它物种基因组序列中的保守区域进行基因预测的同源建模法。

1、转录作图法(transcription mapping

转录作图法是利用已有的转录数据来识别基因组中的基因编码区。将反转录的cDNA进行测序分析,以mRNA转录本作为基因结构注释的依据,被认为是基因序列结构注释的“金标准”。但该方法存在一些不足:如由于mRNA具有不稳定性,部分基因很难获得全长mRNA序列;某些物种中转录本编码的是操纵子而不是基因;由于翻译框的不确定性以及翻译起始位点易受多种因素的影响,依靠mRNA来决定起始密码子和终止密码子比较困难。也是由于上述原因,转录信息在大多数基于基因序列特征的统计建模的基因预测软件中仅作为补充。

2、基因结构统计建模法

基因结构统计建模法是利用计算算法从统计学的角度来预测基因和调节元件,是以从头计算(ab initio)为基础的软件直接从序列本身提取有关基因的信息,基于广义隐马尔可夫模型(generalized hidden markov model, GHMM)的数据结构,并通过使用机器学习所构建的方法,例如GLIMMER、GFENESH、GeneMarkS、mGene、Evigan和GeneMark等方法。

3、同源建模法

同源建模法是基于基因组中的功能元件在进化过程中保守的特点,通过比较其它物种基因组序列中的保守区域进行基因预测,是整合了数据库中已经存在的外部信息来进行预测注释,例如AUGUSTUS、JIGSAW、EuGene、geneid和CRITICA等方法。

现今注释流水线(annotation pipeline)已经被普遍采用,例如ENSEMBL的流水线,NCBI 的Gnomon和UCSC的Known Genes。但是当同时使用多个基因组注释软件时就会出现注释的差异性。排除基因组测序质量因素,此类差异首先与给定的注释的证据的支持强度有关,如某一段序列的长度和上下游信息不充足就会使得小基因、短外显子和读码框移码的预测变得很困难;某些特殊密码子的使用也可能造成基因预测的错误;非标准的起始和终止密码子可以用来标定ORFs,然而在某些情况下,标准终止密码在真核生物中编码硒代半胱氨酸或古细菌中编码吡咯赖氨酸。某些时候,即使预测是正确的,有些类型的基因仅仅编码RNA而不会翻译,其最终产物可能是非编码的RNA (ncRNA)或者可以部分激活的假基因,其RNAs没有编码蛋白质的功能并会很快被降解。最后,由于不同的物种具有不同的基因组,导致使用从头计算工具需要为每一个新的基因组进行机器学习训练。

    A+

除注明外,本站内容由 细菌之家 原创或整理,转载请注明出处及链接。

本文永久链接: http://www.bacteria.cn/html/2015/1207.html

  • 请您留言:专业水平所限,谬误之处在所难免。如您发现不正之处,请在下面留言,谢谢!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

图片 表情