基于多特征信息及Ma-Ada多分类器融合的蛋白质结构类预测
中国知网
杭州电子科技大学
摘要
蛋白质序列特征表示和机器学习算法是影响蛋白质结构类预测效果好坏的两个重要方面。本研究基于k-字统计频率和k-片段位置分布两种特征提取方法,将分别提取到的氨基酸序列信息和物理化学性质信息同蛋白质二级结构信息进行融合,建立17维和57维的特征信息集,并尝试在Adaboost.M1算法中引入Multi-Agent多智能体融合的思想,提出了一种Ma-Ada多分类器融合算法。该算法作为蛋白质结构类的预测工具,充分挖掘了单分类器度量层信息以及各个单分类器之间的交互融合信息。实验结果表明,Ma-Ada算法在Z277、Z498、1189和D640四个蛋白质数据集的57维特征信息集上的分类率分别达到了91.3%、96.8%、85.3%和87.2%,在17维特征信息集上的分类率也分别达到了90.6%、95.8%、84.8%和88.3%。与其它蛋白质结构类预测方法的结果相比,本方法能够获得较好的分类率。
关键词
蛋白质结构类预测 特征信息集 Ma-Ada多分类器融合 protein structural class prediction feature information set Ma-Ada multi-classifier fusion
