摘要
转录组大数据RNA-seq是考察基因表达、研究生命规律的重要来源。分析转录组的序列比对软件TopHat及统计分析软件Cufflinks常见于在单机上以串行方式运行,或者基于分布式计算框架MapReduce在Hadoop集群上以并行方式运行,尚未见其部署于Spark大数据集群上以内存计算的方式并行执行。将TopHat、Cufflinks与Spark相结合式,,使提用出2了~一10种个转工录作组节大点数并据行的运并行行模处式理能方够案获。得在2模.0式8~生7.物43拟倍南的芥加R速NA比-s;eq其上中的文件实的验分结区果数表以明,及较串之行单软机件运的行线模程数对于并行处理效率有一定影响,给出了优化效率的参数设置;所提出的方案取得了与串行运行基本一致的结果,具有可靠性与高效性;通过MapReduce与Spark上的性能比较分析了串行软件并行化所存在的瓶颈问题。
-
单位华东交通大学; 北京建筑工程学院; 西北农林科技大学