摘要

1.一种企业软件著作权公告信息抓取方法,其特征包括,其主要包含以下结构:企业信息库、编码管理程序、软件著作权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业软件著作权公告信息库和接口管理模块#;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成#;企业信息库包含企业信息数据和#SQL#语句管理模块,其通过#SQL#语句条件检索后返回值给编码管理程序确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块生成相应的以上述编码后的企业名称为变量的#URL,信息码管理模块通过getHTTPPage#方式访问生成的URL,并将获得的页面#HTML#静态化,同时执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码#;当第一信息码为空时,系统将返回重新执行企业信息库的#SQL#语句操作,并检查网络、数据可靠性以及各模块运作是否正常#;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业软件著作权公告信息库#;当第二信息码不为空,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业软件著作权公告信息库#;企业软件著作权公告信息库通过#SQL#语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。