公交GPS大数据预处理方法研究——以呼和浩特公交数据为例

发布时间:2022-12-17 23:02:56

公交GPS大数据预处理方法研究——以呼和浩特公交数据为


【摘要】基于机器学习及Python软件平台,创建了一种Hanning+Symlet4小波的去噪平滑算法,在去噪的基础上实现了数据规约及清洗的一体化,节省了数据清理所用的时间.经过仿真实验,处理后的数据在均方误差、信噪比、平滑度上的表现得到提升,为进一步的研究提供有力的数据支撑.
【期刊名称】《内蒙古工业大学学报(自然科学版)》【年(,期】2018(037004【总页数】6(P287-292
【关键词】公交车GPS数据;机器学习;数据去噪;数据清洗【正文语种】【中图分类】U491.14
数据预处理作为数据挖掘的重要部分,主要内容包括数据规约、数据清洗及数据去噪三部分,以此得到标准、连续的数据.交通流作为时序时间序列,具有很强的非稳定、强随机和强突变性[1],如何在处理此类非平稳时间序列的同时获取规定频段的时间信息则显得非常重要.小波阈值法能够在保存数据尖峰和突变模块的同时拥有很好的去噪效果,因此采用阈值法作为问题研究的基础.1数据规约及数据清洗

基于Python软件平台,完成了对呼和浩特市浮动公交车数据的清洗工作,具体步骤如下:
1.1数据导入及时间戳的转换
原始数据为2017927日公交32路早7:00-9:00的所有信息.其内容包括:收集时间(Gathertime、速度(Busspeed、经纬度(Lat、站定名(Sationname驾驶员姓名(Drivername、驾驶员ID(UUId等信息,并以TXT格式保存.但由于其参数冗余、文档读取缓慢.需要选取有用列并转换格式.1数据导入流程Fig.1Showsthedataimportprocess
如图1所示,通过importpandas导入函数库后,利用pd.read_jsonTXT文本进行读取,通过设定columns:速度、收集时间、经纬度、作为选出自己所需的行.由于设备存储时间信息时所用的是13位时间戳,不能直接用于数据分析,因此需要Time.Strftime函数对gatherTime行进行处理,从而得到可用的时间列Time.2完成转换的GPS数据Fig.2CompletestheconversionofGPSdata2是完成时间戳转换后的数据,处理后的数据与起始数据相比降低了存储量,并且这些数据可以用于表征交通流,为下一步的处理提供数据基础.1.2缺失值的填补
浮动公交车在运行过程中,由于设备异常或GPS信号弱等原因会产生大量的缺失值,缺失值作为维系数据挖掘质量的因素,不可忽略,因此第二步进行缺失值的填补.此部分主要运用Pythoninterpolatefillna函数.
缺失值的处理方法可以分为忽略缺失值和填补缺失值两类:当序列有连续多个缺失值时,通常忽略,即在表格中进行删除操作.当序列中仅有少量缺失值时,一般要对其进行填补[1].本文所用数据缺失值较少,采取填补法.Python中提供填补缺失值的方式[2]:
(1均值法:求出整个序列有效数值的平均值,用平均值替代缺失值;

(2临近点中位数法:对缺失值上下临近点制定跨度范围内的有效数值或全部有效数值的中位数来替代缺失值;
(3线性插值法:对缺失值之前的最后一个和其后第一个有效值使用线性插值法计算估计值;
(4前后向插值法:对缺失值使用所在列前一个有效值或其后第一个有效值进行填充;(5时间序列插值法:选择时间关系上最相近的前后有效值的线性模型进行填充.根据时间序列的相关性,针对公交速度(Busspeed行采取时间插值法,其他行采取前向插值法.具体步骤如图3:
3Pandas填补缺失值步骤Fig.3Stepsforpandastofillmissingvalues1.3数据去噪及平滑处理
规约处理后的数据看似有序完整,但其信噪比[3]仅为0.89898,这说明数据中虽蕴含着大量的有用信息,但噪声的比例太大.因此必须进行数据去噪以挖掘出有用的信息.具体步骤如下:
4去噪平滑流程Fig.4Denoisingsmoothingprocess
上面完成了对函数的封装,填补了原始数据中存在的NAN(空缺值,节省了数据预处理的时间.接下来详细介绍Hanning+Symlet小波去噪平滑法.2Hanning+Symlet小波去噪平滑法2.1Symlet小波
小波分析由于其良好的时频局化特性、多频分辨特性、去相关性而被广泛运用[4].传统的小波函数有:Haar小波、Daubechies(dbN小波、MexicanHat(墨西哥草小波及Symlet(对称小波[5].Symlet小波相对于其他小波有以下几个优点:(1良好的正则性、正交性;(2近似对称,具有线性相位;(3运算速度快,计算简单[6].

公交GPS大数据预处理方法研究——以呼和浩特公交数据为例

相关推荐