公交GPS大数据预处理方法研究——以呼和浩特公交数据为例
发布时间:2022-12-17 23:02:56
公交GPS大数据预处理方法研究——以呼和浩特公交数据为
例
佚名
【摘要】基于机器学习及Python软件平台,创建了一种Hanning+Symlet4小波的去噪平滑算法,在去噪的基础上实现了数据规约及清洗的一体化,节省了数据清理所用的时间.经过仿真实验,处理后的数据在均方误差、信噪比、平滑度上的表现得到提升,为进一步的研究提供有力的数据支撑.
【期刊名称】《内蒙古工业大学学报(自然科学版)》【年(卷,期】2018(037004【总页数】6页(P287-292
【关键词】公交车GPS数据;机器学习;数据去噪;数据清洗【正文语种】中文【中图分类】U491.14
数据预处理作为数据挖掘的重要部分,主要内容包括数据规约、数据清洗及数据去噪三部分,以此得到标准、连续的数据.交通流作为时序时间序列,具有很强的非稳定、强随机和强突变性[1],如何在处理此类非平稳时间序列的同时获取规定频段的时间信息则显得非常重要.小波阈值法能够在保存数据尖峰和突变模块的同时拥有很好的去噪效果,因此采用阈值法作为问题研究的基础.1数据规约及数据清洗
基于Python软件平台,完成了对呼和浩特市浮动公交车数据的清洗工作,具体步骤如下:
1.1数据导入及时间戳的转换
原始数据为2017年9月27日公交32路早7:00-晚9:00的所有信息.其内容包括:收集时间(Gathertime、速度(Busspeed、经纬度(Lat、站定名(Sationname、驾驶员姓名(Drivername、驾驶员ID(UUId等信息,并以TXT格式保存.但由于其参数冗余、文档读取缓慢.需要选取有用列并转换格式.图1数据导入流程Fig.1Showsthedataimportprocess
如图1所示,通过importpandas导入函数库后,利用pd.read_json对TXT文本进行读取,通过设定columns为:速度、收集时间、经纬度、作为选出自己所需的行.由于设备存储时间信息时所用的是13位时间戳,不能直接用于数据分析,因此需要Time.Strftime函数对gatherTime行进行处理,从而得到可用的时间列Time.图2完成转换的GPS数据Fig.2CompletestheconversionofGPSdata图2是完成时间戳转换后的数据,处理后的数据与起始数据相比降低了存储量,并且这些数据可以用于表征交通流,为下一步的处理提供数据基础.1.2缺失值的填补
浮动公交车在运行过程中,由于设备异常或GPS信号弱等原因会产生大量的缺失值,缺失值作为维系数据挖掘质量的因素,不可忽略,因此第二步进行缺失值的填补.此部分主要运用Python的interpolate及fillna函数.
缺失值的处理方法可以分为忽略缺失值和填补缺失值两类:当序列有连续多个缺失值时,通常忽略,即在表格中进行删除操作.当序列中仅有少量缺失值时,一般要对其进行填补[1].本文所用数据缺失值较少,采取填补法.Python中提供填补缺失值的方式有[2]:
(1均值法:求出整个序列有效数值的平均值,用平均值替代缺失值