基于属性值序列图模型的deep Web新数据发现策略

Authors:鲜学丰; 崔志明; 赵朋朋; 方立刚; 杨元峰; 顾才东
Source:通信学报, 2016, 37(3).
DOI:10.11959/j.issn.1000-436x.2016049

Summary

针对数据源新产生数据记录的增量爬取问题,提出了一种deep Web新数据发现策略,该策略采用一种新的属性值序列图模型表示deep Web数据源,将新数据发现问题转化为属性值序列图的遍历问题,该模型仅与数据相关,与现有查询关联图模型相比,具有更强的适应性和确定性,可适用于仅仅包含简单查询接口的deep Web数据源.在此模型的基础上,发现增长节点并预测其新数据发现能力;利用互信息计算节点之间的依赖关系,查询选择时尽可能地降低查询依赖带来的负面影响.该策略提高了新数据爬取的效率,实验结果表明,在相同资源约束前提下,该策略能使本地数据和远程数据保持最大化同步.

  • Institution
    苏州大学; 苏州市职业大学

Full-Text