ScholarMate
客服热线:400-1616-289

基于词向量嵌入特征扩展的学术报告分类

薛峰; 许剑东; 夏帅; 王东
中国知网
合肥工业大学计算机与信息学院

摘要

学术报告讲座的标题属于典型的超短文本,其固有的特征稀疏问题使得在利用传统的文本分类方法对其分类时效果不佳。为解决上述问题,文章基于词向量嵌入技术,对学术报告标题进行特征词扩展。通过控制特征扩展幅度和设置词间相似度阈值,使扩展的特征词与标题特征词的内容相关,并从词性角度进一步考虑词语相似性,过滤无关特征词。实验结果表明,该方法能够有效地提高对学术报告标题短文本的分类效果。

关键词

词向量 特征扩展 短文本 分类算法 word embedding feature extension short text classification algorithm