摘要

地址数据的规范化表达是地理编码的前提。首先,通过设计地址要素层次模型,建立地址要素词典库,并存储地址要素名称、地址通名、地址专名、地址要素类型编码等,用于地址要素拆分;其次,采用首次取两个字、再逐次加一字的地址通名切分方法对原始地址数据进行地址要素拆分和规范化,弥补了常用的最大正向分词算法中M系数难以确定的不足,避免了没有意义的循环,提高了查找效率和准确率。最后,基于地址要素组合规则对拆分后的地址要素进行重构获得规范化的地址。

  • 单位
    福州大学