ScholarMate
客服热线:400-1616-289

基于随机森林算法的盖亚大数据清洗的研究

张家顺
万方
-

摘要

本文针对滴滴出行的盖亚开放数据集中的GPS轨迹数据,设计了一种自动数据清洗方法。该方法基于随机森林算法,用来识别盖亚开放数据集原始GPS轨迹数据中的无效数据,弱信号数据和正常数据。首先根据三类数据的数学特征选择其特征集,然后确定其最优的特征子集维度。最后,基于python的pandas和scikit-learn实现所提出的方法,并以盖亚数据集中的2016年10~11月成都市二环数据集作为样本进行了实验来验证该数据清洗方法的效果,结果表明了该方法可以有效地完成弱信号数据和无效数据的数据清洗工作。

关键词

数据清洗 机器学习 随机森林 Data Cleaning Machine Learning Random Forest