ScholarMate
客服热线:400-1616-289

基于词汇链的中文新闻网页关键词抽取方法

胡学钢; 李星华; 谢飞; 吴信东
中国知网
合肥师范学院; 合肥工业大学计算机与信息学院

摘要

词汇链是一种词语间语义关系引起的连贯性的外在表现,提供关于文本结构和主题的重要线索.文中在解决歧义消解问题的基础上提出利用词汇链,结合词频特征、位置特征和集聚特征抽取中文新闻网页关键词的方法.该方法根据词语在文档中语义联系将文档表示成词汇链形式,并在此基础上抽取关键词.对中文新闻网页和学术期刊文献两种语料进行实验,结果表明该方法可明显提高抽取的关键词质量.

关键词

词汇链 关键词抽取 歧义消解 语义相似度 Lexical Chain Keyword Extraction Ambiguity Resolution Semantic Similarity