首页 理论教育RNA-Seq差异表达基因检测数据分析

RNA-Seq差异表达基因检测数据分析

【摘要】:RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据进行设计和实现的。

RNA-Seq测序技术已成为研究基因表达的重要实验手段,比较不同样本中基因表达差异,为解决后续的生物问题提供了定量分析的依据。目前已有的标准化评估方法有定性直观描述标准化前后数据分布、定量的经验统计分析(如K-S检验和均方误差等)。生物信息学科的研究工作者近年来也意识到了大数据带来的挑战,开发了一些基于云计算的分析软件,其中涉及RNA-Seq数据分析的主要有MyRNA、Crossbow等。大数据给医疗领域带来了挑战,同时也带来了机遇,尤其是对于一些恶性疾病(如癌症)的治疗。一种单一类型的肿瘤往往会伴随着多样化的基因突变(产生差异表达基因数据),随着治疗的投入,会得到更多的治疗靶点。当大数据分析的精度越来越高时,对于整个疾病发生过程的了解也会越来越深入,有了大数据分析这一利器,更多的精准治疗方案将会产生,帮助人们做出更好的选择。

基因在细胞中的表达水平随着时间、内部环境和外部环境的变化并不是固定不变的,很多因素都会影响基因在某一时间点的表达情况,我们称之为基因在某种条件下的表达谱(Gene Expression Profile)[168]。通过比较基因在不同情况下表达水平的差异,科研工作者可以从转录组水平上更加详细且有针对性地研究某种状态下基因表达对于其生理、生化过程的影响。在转录组的相关研究中,基因差异表达分析是一项常见的组学分析任务。传统的基因差异表达分析是基于cDNA、基因表达序列(EST)或者寡核苷酸芯片(DNA Microarray)等技术来完成的[169],随着测序技术的不断发展,科研工作者提出了新的RNA-Seq技术来进行转录组研究。

RNA-Seq技术被称为全转录组鸟枪法测序,科研人员先将细胞某一时刻的转录组RNA反转录成cDNA片段,然后使用高通量测序技术对这些cDNA片段进行测序,在此基础上,可以对得到的片段序列进行组装,最后得到一系列转录本对应的信息。本部分的研究即将要构建的基因差异表达分析流程就是针对RNA-Seq技术得到的原始数据(包括Reads序列等)进行设计和实现的。(www.chuimin.cn)

许多传统软件都可以进行此类操作,如EdgeR[170]、Cufflinks[171]和最近出现的StringTie[172]等,但是尚未有一个基于云计算的模块化的分析流程可以完成这项工作。2010年,由Langmead等人构建的MyRNA[173]基因表达差异流程虽然也是基于云计算Hadoop技术的,但是其自身并不具有模块化的特点,部署安装也较困难,在具体运行时还需要指定很多关于Hadoop集群的运行参数。由于这些问题的存在,本章中我们构建了一个基于云计算的基因差异表达分析流程,其输入数据是RNA-Seq技术得出的Reads序列以及物种的参考基因组序列(Reference Genome Sequence),输出数据是样本间存在差异表达的基因列表。