摘要

定位转录因子结合位点,也称模体发现问题,对于理解基因调控关系非常重要.文中提出了一种新的定位投影求精算法(Fixed-Position Projection Refinement algorithm,FPPR)用于DNA序列中的转录因子结合位点识别.通过一个基于数据集对应位置频率矩阵的投影过程,将DNA数据聚类为不同的子集,过滤选出其中具有一定信息量和复杂度的子集,作为初始状态,进而使用期望最大化算法进行求精.FPPR通过对定位投影过程中阈值的设定,实现了对OOPS、ZOOPS、TCM这3种模型中不同模体实例分布的处理.同时,结合高阶马尔可夫背景设计目标函数,使得算法的概率模型更加符合真实生物数据.此外,通过相似函数WIC评估,FPPR可拓展为解决多模体识别问题.真实数据测试表明,FPPR可以在合理的时间内准确找寻模体,与MEME、GAME、Motif Sampler和GALP-F等算法相比有更好的性能,并且可以有效地解决多模体识别问题.

  • 单位
    西安电子科技大学