摘要

为提高医药文献中文分词的准确率,根据医药文献的特点,研究了中文分词的算法。首先介绍了基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于匹配与统计结合分词方法,并在设计思想上对各算法进行了比较。在此基础上,运用C语言,VC6.0平台实现各算法,并对医药文献进行分词实验。实验结果显示,基于字符串匹配的最大正向匹配法取得了较好的性能。

  • 单位
    广东药学院