摘要

电子商务发展迅速,商品数据不断增大,用户在搜索商品时总是需要浏览许多自己不需要的商品.因此找出其中描述相同的商品,对电子商务信息进行分类,能够有效提高用户的购买效率.由于各大电子商务网站人工输入的商品信息存在信息错误以及主观因素造成描述差异,现有的实体识别算法很难在电子商务数据上得到理想的结果,为商品数据的分类造成极大的困难.基于此,设计了一个基于众包的电子商务数据实体分类系统,结合Amazon Mechanical Turk(AMT)这个新兴的众包平台,实现机器实体识别算法与人工标注相结合的实体分类平台,在提高了数据分类的准确性的同时尽可能的降低实现商品数据分类的成本.

  • 单位
    哈尔滨工业大学