几类常见的RNA二级结构预测方法
摘要:RNA作为生物遗传信息传递和复制的重要组成部分,其结构非常复杂。使用计算机算法预测大分子量的RNA二级结构将是一个行之有效的途径。本文将介绍目前常用的几种RNA二级结构预测算法,并对其特点进行初步的比较分析。
关键词:RNA二级结构;算法;自由能;茎区
RNA分子是生物体内参与各种如细胞分化、代谢、记忆存储等重要生命活动的一类大分子,其常见种类有:rRNA、mRNA、tRNA。其中除tRNA分子量较小外,其余RNA分子都具有非常大的分子量且结构复杂。传统的物理、化学结构预测方法只适用于测量分子量较小的RNA。而针对大分子量的RNA二级结构预测,使用计算机技术预测是一条行之有效的方法。本文主要介绍基于系统发育比较和自由能最小两种技术的RNA二级结构预测算法,并对算法的特点做出简单的阐述。
1RNA二级结构的预测方法
从19xx年fresco等提出第一个RNA二级结构预测算法开始,RNA二级结构的预测算法经历了近半个世纪的发展,已日趋成熟。19xx年Von heijin对各种预测RNA二级结构的方法进行了综述[1]。19xx年Tinoco et.al首次估算了与二级结构相关的能量,包括双链区中堆叠碱基对相关的稳态能量和未配对区域的稳定影响。19xx年Pipas和McMahon开发出计算机程序可以列出tRNA序列中所有可能的螺旋区。直到19xx年Nussinov和Jacobson首次设计出一个用于预测二级结构的精确而有效的算法,该算法运用了类似动态规划的相关技术,产生了两个记分矩阵,用于记录推测出的RNA分子中碱基的相关信息。目前,研究人员开发出多种RNA二级结构预测方法。但总体来说,这些方法可以从研究的数据量出发将其分为两大类:基于系统发育比较技术的预测算法和基于自由能最小技术的预测算法。
1.1基于系统发育比较技术的预测算法
基于系统发育比较技术的预测算法即序列比较分析方法(comparative sequence analysis),或称系统发育方法(phylogenetic methods)。该方法对多条序列进行互补碱基的共变连配(covariant alignment)在已知序列的数据库中搜寻被考察序列的相似序列,并利用各类统计分析技术及序列上下文语义分析来推断出待测序列的二级结构。具体算法包括:Eddy和Durbin提出的协同变异模型及Sakakibara提出的利用随机上下文无关文法(SCFG)预测RNA二级结构的方法等[1,2]。
协同变异分析方法的结构预测算法将对待测序列进行优化排序和多重序列的对位排序,从而查找出其潜在的二级结构。然后对特定碱基对行统计分析,找出其出现频率的期望值。再对碱基对进行共有信息记分。通过对碱基对的记分信
息的比较。找出16种碱基对所有组合的期望值。最终推测出该RNA二级结构的详细信息。从基于协同变异模型预测RNA二级结构的算法仿真实验结果中可看出,该算法在用于小分子量基因如tRNA时,显示出良好的性能,但在用于较大基因组搜索时则显得相当缓慢。
Sakakibara提出的基于SCFG技术的RNA二级结构预测算法从形式语言的角度出发,以字符方式标记RNA分子中的碱基,并规定了终结字符、非终结字符、产生式等来描述RNA二级结构中的不同子结构类型。其利用产生式的规则构造出的语法树即代表了一个可能的二级结构。由于不用产生式的概率不同,因此,该技术应用动态变成算法计算出其概率,从而构造出最可能的语法树。该类算法的缺点就于其具有计算上的复杂性[3]。
从以上两个具体算法可以看出,基于系统发育比较技术的RNA二级结构预测算法具有很好的预测精确度,但是,对于序列的样本要求却很高。一般来说,依靠这种技术预测RNA二级结构需要一定数量的相关序列样本,并要求序列样本间具有一致的二级结构和一些共同的基本结构单元。对于小样本或来源差异大的序列,其比较结构就不大可靠了。此外,多序列联配是该预测技术的核心,但却非常消耗系统资源。
1.2基于自由能最小技术的预测算法
研究证明,自然的RNA二级结构应该是稳定的,根据热力学理论,当物体处于稳定态时其自由能最小[4]。根据这一理论,基于自由能最小技术的预测算法将对待测RNA序列进行自由能分析,从中找出自由能最小的结构,并将其接近于待测序列的真实二级结构。因此,由于不需要大量样本序列数据库支持,基于最小自由能技术的预测算法,成为了当今RNA二级结构预测算法发展的主流方向。该技术主要包含三类:基于矩阵运算的动态规划算法、基于茎组合的启发算法和基于随机搜索的进化算法。
基于矩阵运算的动态规划算法利用矩阵的形式表现出碱基对在二级结构中分布信息。并结合动态规划算法和能量规则推导出自由能最小的RNA二级结构即近似真实二级结构。基于该技术的算法首先由Nussionv和Jacobson于19xx年提出——最大碱基匹配数结构的预测算法,该算法将产生两个记分矩阵,用于表示某两点间任意间隔中形成的碱基对的最大数目,以及特定碱基的互补碱基的位置。然后通过一个回溯的过程推导出具有最大可能碱基对数目的二级结构。之后,Zuker和Stiegler于19xx年提出了最小自由能结构的预测算法。该方法以结构的能量大小作为其评分标准,比较RNA分子中所有可能的配对碱基及其能量值,直到所有的核酸都被比较过后,利用记分矩阵预测出所有可能结构并发现出最合适的能量。该类算法对于一些小分子RNA的预测结果非常可靠,但随着序列长度的增加,其可靠性随之下降。同时,由于最小自由能结构的预测算法的时间复杂度为,空间复杂度为,其中n表示RNA分子中的碱基数,因此当RNA分子量增大时,该算法所面临的问题规模时无法控制的。
基于茎区组合的优化算法其RNA二级结构预测思路主要源于RNA分子的
二级结构特征。简单来说, RNA二级结构就是一连串茎区串联而成的组合,因此根据不同的茎区能量,找出总自由能最小的茎区组合,也就找到了稳定的RNA二级结构[5]。目前相关的主要算法有Pipas提出的求解茎区所有可能组合中最小自由能结构的预测算法,以及Benedetti提出的茎区最优堆积算法。该算法的主要思想就是给定一条序列,它首先列出其中所有可能的茎区,并根据中心极限定理,用Monte Carlo随机试验的方法估计出每一茎区的出现概率,然后在每一步迭代当中挑选茎区列表中概率较大自由能最小的那一个加到当前结构上并消除产生冲突的情况,直到再也没有茎区可加了,则当前结构就作为RNA序列的最终二级结构[6]。该类算法总能够计算出结构稳定的RNA二级结构,但由于对茎区的选择上依赖于茎区出现的概率和茎区的排序,因此会导致当自由能最小的茎区没有按最大概率出现时,该茎区将会被漏选。
目前遗传算法等一类基于随机搜索的启发式搜索技术也已用于预测二级结构,这一类算法具在面对大样本,环境复杂的问题时常常会有良好的表现。该类算法模拟了生物的进化原理,能够在一个种群数量庞大的样本空间中,自适应地利用选择、交叉、变异等手段对样本空间进行筛选,优化,最终依据筛选规则找出最优解。在对RNA二级结构的预测中,面对数量庞大的碱基对组合方式,可以根据其能量规则,利用进化算法找出自由能最小的结构。该类算法的突出优点在于它可以解决含有假结的RNA二级结构预测问题。但缺点是该类算法的整个运行过程是一个自适应过程,因此随意性比较大,结果容易出现局部最优解,导致运行结果不易控制。
2结语
无论是基于上述那类技术设计的RNA二级结构预测算法,在开始阶段,研究人员为简化RNA二级结构预测难度,大多数预测算法都未考虑RNA二级结构中的假结、相吻发夹等复杂情况,然而这些结构均常出现在真实的RNA二级结构中。因此,在今后的算法改进中,研究人员还需周全考虑真实二级结构中的各类构造情况,并联系RNA分子间相互作用对结构稳定性的影响因素,找出更为精确的预测模型,完成对RNA二级结构的预测,尽力缩小因人为因素导致的预测误差。
参考文献:
[1] 李巍.生物信息学导论[M].郑州:河南医科大学出版社,
20xx.
[2] Jacques Cohen.Bioinformatics—An Introduction for Computer
Scientists[J].ACM Computing Surveys,20xx,36(4):122-185.
[3] 宁正元,林世强.RNA二级结构预测方法福建农林大学学
报(自然科学版),20xx,36(1):60-63.
[4] 廖波,王天明.RNA二级结构的最小自由能算法.生物数学
学报,20xx,18(3):364-368.
[5] 李伍举,吴加金.基于螺旋区随机堆积的RNA二级结构的
预测.生物物理学报,1996,12(2):213-218.
[6] 刘海军,史定华.翼飞日新月异的RNA二级结构预测[J].自
然杂志,20xx,25(6):314-322.
第二篇:总结几种常见的Word转换PDF方法
总结几种常见的Word转换PDF方法 之前介绍过很多
PDF 转 Word 类的软件,不过也是有很多网友询问如何将 Word 文档转换为 PDF 文件,此类应用相对简单,这里就总结下比较方便的转换方法,一并回答下。
关于 PDF 制作软件,善用佳软已有详细的介绍及评测,我就针对已安装 Microsoft Office 环境的情况,介绍一些相对简便的 Word2PDF 思路,当然正在使用 Adobe Acrobat 的话,以下的方法可以无视了。
1、Microsoft Office 20xx 、WPS Office 20xx 环境
Word 20xx、WPS Office 可以直接另存 Word 文档为 PDF,支持中文,兼容性能够保证。 Office 20xx 中另存 Word 为 PDF(快捷键为 F12)
WPS 20xx 输出为 PDF:
2、Microsoft Office 20xx 环境
Office 20xx 只需安装一个加载项,就能导出文件并将其保存为 PDF 和 XPS 格式。 20xx Microsoft Office加载项:Microsoft Save as PDF 或 XPS
小严的补充说明:Office 20xx with SP2 已经内置 Save As PDF/XPS 支持。
3、Microsoft Office 20xx 环境
Office 20xx 需要 PDF 虚拟打印机的支持,安装虚拟打印机后,选择文件->打印,在打印机列表中选择 PDF 虚拟打印机,即可输出为 PDF。
推荐的虚拟打印机:TinyPDF、PDFCreator 或 Foxit PDF Creator。
4、未安装 MS Office 环境的情况
如果没有安装任何 Office 软件,则推荐使用 SoftMaker Viewer,这是一款多功能 Word 文档阅读工具,可直接将文档输出为 PDF 文件。(感谢 joo seng 的补充))
5、利用在线应用转换 Word 为 PDF
比如上传到 Google Docs,然后下载为 PDF。
补充由 xingqiba 推荐的 X2PDF 在线转换 Word 为 PDF 文件(适于不超过 10 MB 大小的文档)
X2PDF:快速安全的转换成工业标准的 PDF 文件