基于统计年鉴和网络大数据的房屋竣工面积估算
CSCD中国知网北大核心Engineering Village
北京大学; 北京大学数学科学学院
摘要
房屋竣工面积作为建筑业的关键指标之一, 其估计和测算具有重要的现实意义。选择北京市年鉴中的若干数据指标, 构建经济社会因子体系, 采用偏最小二乘回归、LASSO回归及RBF神经网络三种模型, 对2017及2018年北京市房屋竣工面积进行了预测。另一方面, 考虑到各年鉴数据统计渠道及指标粒度不同, 且2019年建筑业部分指标数据的公布存在延迟, 难以用模型拟合的方式对该年度竣工面积做出估计。因此, 利用爬虫技术获取高质量数据并深入挖掘网络数据中的信息, 通过互联网大数据估算北京市房屋竣工面积。具体过程为: 首先建立基于网络大数据的建筑数据获取框架, 通过调用服务接口、关键字搜索等技术爬取北京地区八类建筑物的属性数据; 其次利用正则表达式和条件过滤, 对网页返回的HTML非结构化数据进行抽取与清洗; 最后对2019年北京市房屋竣工面积及各功能分区的竣工面积做出估算。
关键词
竣工面积 回归分析 网络爬虫 模板抽取
