一种二维手机信令数据转化三维空间轨迹数据的方法
技术领域
本发明属于城市交通大数据挖掘领域,涉及一种二维手机信令数据的预处理方法,具体的说是一种二维手机信令数据转化为三维空间轨迹数据的方法。
背景技术
城市居民在使用手机进行通信或切换基站时,都会出发基站从而产生信令数据,由此得到居民所被辐射的基站的经纬度坐标。
相比传统的城市交通出行调查和GPS定位数据,手机信令数据具有低成本(不需要发射卫星)、大样本且覆盖范围广(通过搭建基站即可生成并记录信令数据)、安全性高(数据为脱敏数据,不含有任何个人属性信息,不侵犯用户隐私)、跟随性强(定位数据由基站位置决定,不受居民的出行方式影响)等优点。根据截至2019年6月的调查数据显示,我国手机网民规模达8.47亿,比例高达99.1%。因此只要携带手机出行的居民都会产生一定量的手机信令数据,所以该种数据的用户持有率较高。
然而手机信令数据仍存两个明显缺陷:
(1)在原始手机信令数据中仍存在较多脏数据,主要有缺失数据、错误数据、重复数据、乒乓数据、漂移数据、伪漂移数据、静止冗余数据等误差数据。其中缺失数据指的是某条信令数据的关键字段缺失(如基站经纬度、时间信息等);错误数据指的是不在规定城区范围内或不在规定时间内的数据;重复数据指的是一段时间内被重复记录多次的数据;乒乓数据指的是当居民出于两个以上基站小区的交界处时信号在多个基站之间来回切换产生的数据;漂移数据指的是手机信号突然从临近的基站切换到较远的基站并在一定时间后切换回临近基站小区从而产生的不规律漂移数据;伪漂移数据是指对于时间序列上的连续三个信令数据点,其定位坐标看似具有漂移数据的特征,实为存在一定记录误差的正常信令数据,经过修正后可作为正常信令数据进行数据分析;静止冗余数据指的是某手机的定位数据在长时间内没有发生变化,则为静止无效数据,若不筛除或后期被标记为驻留数据则会增加信令数据的稀疏性。
(2)由于信令数据基于基站定位的特性导致用户位置的定位精度较低,在城市城区路网较密集的地带,基站覆盖半径为200-500米,和3-10米定位精度的卫星定位有较大的精度差别,因此手机信令数据并不能直接拿来做数据挖掘和研究,需要针对信令数据的特点使用特定的方法进行一系列的数据清洗和坐标修正,以减少其空间上的定位偏差。
因此本发明提供了一种二维手机信令数据转化三维空间轨迹数据的方法,可以在有效筛出原始信令数据集中异常数据的同时,提高信令数据的定位精度,减少空定位偏差,从源头减少实验误差从而提高交通大数据分析挖掘的准确性。
发明内容
本发明提供一系列的原始手机信令数据的预处理方法,该方法一方面可以高效地处理大规模的城市交通大数据,另一方面可以较为精准地将具有空间偏差缺陷的二维手机信令数据转化为尽可能接近GPS定位数据精度的三维空间轨迹数据,为分析和挖掘城市居民的出行特征、进行城市交通规划提供方便。
本发明是一种二维手机信令数据转化三维空间轨迹数据的方法,其特征在于,包括以下步骤:
S1:将原始手机信令数据表和基站-扇区经纬度静态数据表进行连接;
S2:筛选研究选定城市区域经纬度范围内的所有原始手机信令数据;
S3:进行缺失数据处理;
S4:进行错误异常数据处理;
S5:进行重复数据处理;
S6:进行乒乓数据处理;
S7:进行漂移数据处理;
S8:进行伪漂移数据处理;
S9:进行数据清洗后的基站坐标修正;
其中,的原始手机信令数据包括的字段名称和含义包括如下:
1)timestamp:信息记录开始时间;
2)imsi:用户唯一id;
3)lac_id:基站位置区编码;
4)cell-id:扇区编号;
的基站-扇区经纬度静态数据包括的字段名称和含义如下所示:
1)longitude:经度;
2)latitude:纬度;
3)laci:基站信息;其中原始手机信令数据中的lac_id、cell_id与基站-扇区经纬度静态数据中的laci关联可获取信令数据中出行者触发的基站经纬度信息。
本发明的进一步改进在于:步骤S1的具体过程是:
a)将基站-扇区经纬度静态数据表中的laci字段拆分成如下所示的四种字段:
(基站编号base_num,扇区编号section_num,扇区经度sec_long,扇区纬度sec_lat);
b)其中,使(基站编号base_num,扇区编号section_num)与原始手机信令数据表中的lac_id与cell_id字段进行连接;
c)最终得到原始信令数据中每条数据所触发基站的经纬度。
本发明的进一步改进在于:步骤S2中研究城市区域被假定为矩形区域,其经纬度的最大值与最小值分别为:longmax、longmin、latimax、latimin,则在S2步骤中筛选有效数据的依据为每条信令数据记录的基站经纬度(longsignal,latisignal)必须满足:
longmin≤longsignal≤longmax
latimin≤latisignal≤latimax。
本发明的进一步改进在于:步骤S3中,缺失数据所缺失的关键字段主要包括用户id(imsi)、记录时间(timestamp)、基站和扇区的编号(lac_id和cell_id),将原始数据中含有缺失字段的数据进行删除操作。
本发明的进一步改进在于:步骤S4中,错误异常数据处理为对不在研究时间范围内的数据和因基站小区记录出错导致时间异常的数据进行删除操作。
本发明的进一步改进在于:步骤S5中,重复数据处理为对同一段时间内被重复记录多次的数据进行删除操作。
本发明的进一步改进在于:步骤S6中,对于乒乓数据的处理,首先判断是否为乒乓数据:对于同一出行者j在时间序列上相邻时刻、不同位置的记录为
本发明的进一步改进在于:步骤S7中,首先判定原始信令数据是否为漂移数据:对于同一出行者j在时间序列上相邻时刻、不同位置的记录为
本发明的进一步改进在于:步骤S8中,首先判定是否为伪漂移数据:对于同一出行者j在时间序列上相邻时刻、不同位置的记录为
其中,上式中
本发明的进一步改进在于:步骤S9的具体过程是:a)首先将城市路网坐标数据地图以正方形为最小单元进行分割,其中,单元长度为unit;
b)遍历每一组出行者的信令数据,在每一步遍历内先判断在该条信令数据中出行者所属的划分区域;
c)针对该区域内所有的道路进行信令数据与路网数据的匹配,具体为:循环遍历每条路网中的相邻结点,并分别计算与当前信令数据基站坐标的欧氏距离,找出距离最小的路网结点作为该信令数据中基站坐标修正后的点。
与现有的技术方法相比,本发明技术方案的有益效果是:
本方法简洁高效,和现有的技术方法相比考虑到了更多可能存在于原始信令数据中的异常数据,可以准确高效地清洗原始手机信令数据中的缺失数据、错误数据、重复数据、乒乓数据、漂移数据等不符合研究要求的数据,并且较为精确地剔除或修正伪漂移数据、校正清洗后的基站坐标,使其更贴近出行者的实际出行定位数据,降低了在后续数据挖掘和分析过程中产生的误差,提高了分析结果的准确率,同时也可以在保持交通城市大数据挖掘领域研究低成本、大样本等优势的基础上提高数据的准确率和分析价值。
附图说明
图1是本发明的流程图。
图2是修正前的伪漂移数据示意图。
图3是伪漂移数据修正后的示意图。
图4为基于路网坐标的信令定位数据的修正方法流程图。
具体实施方式
为了加强对本发明的理解,下面将结合附图和实施例对本发明作进一步的详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
如图1-4所示,本发明是一种二维手机信令数据转化三维空间轨迹数据的方法,包括以下步骤:
步骤S1:将原始信令数据表和基站-扇区经纬度静态数据表进行连接,基站-扇区经纬度静态数据表中的laci字段拆分的四种字段(基站编号base_num,扇区编号section_num,扇区经度sec_long,扇区纬度sec_lat)中的(基站编号base_num,扇区编号section_num)与原始手机信令数据表中的lac_id与cell_id字段进行连接。其中,的原始手机信令数据包括的字段名称和含义分别为:(1)timestamp:信息记录开始时间;(2)imsi:用户唯一id;(3)lac_id:基站位置区编码;(4)cell-id:扇区编号。的基站-扇区经纬度静态数据包括的字段名称和含义分别为:(1)longitude:经度;(2)latitude:纬度;(3)laci:基站信息(包括基站编号和扇区编号)。连接结果如表1所示:
表1原始信令数据表和基站-扇区经纬度静态数据表连接结果
步骤S2:筛选研究选定城市区域经纬度范围内的所有原始手机信令数据:假设研究区域在沈阳市城区,经度范围为东经123°22'13.80"(122.3705)至123°29′54.34″(123.4984278),纬度范围为41°50′15.32″(41.8375889)至41°42.′51.58″(41.7143278)。如表1所示,则应剔除编号1和编号5的记录。筛选研究区域(沈阳市城区)规定经纬度范围内数据示意表如表2所示。
表2筛选研究区域内数据示意表
步骤S3:进行缺失数据处理:剔除关键字段(如:基站经纬度、时间信息等字段)缺失的数据,如表3所示,编号为2、3、4的数据分别有基站经纬度、用户编号、记录时间缺失的情况,应进行剔除;
表3筛选关键字段缺失数据处理示意表
步骤S4:进行错误异常数据处理:主要对时间异常的数据进行删除操作。若要求调查分析2018年10月3日当天的出行情况。如表4所示,编号为3和5的数据对应的时间戳不在调查要求的时间范围内,应予以剔除。
表4处理异常数据示意表
步骤S5:进行重复数据处理:主要对同一段时间内被重复记录多次的数据进行删除操作,如表5所示,编号为3、4、5的数据出现重复现象,在此应只保留一条数据;
表5重复数据处理示意表
步骤S6:进行乒乓数据处理:在判断是否为乒乓数据后将连续的乒乓数据做删除操作。如表6所示,经过计算发现编号为3的数据处的而平均速度大于城市交通最大速度阈值
表6处理乒乓数据示意表
步骤S7:进行漂移数据处理:在判定原始信令数据是否为漂移数据后对漂移数据进行删除操作,如表7所示,编号为3和编号为4的数据点之间的距离大于规定的非漂移距离阈值
表7漂移数据处理示意表
步骤S8:进行伪漂移数据处理:在判定是否为伪漂移数据后对不符合要求的数据进行修正操作,将其转化为正常数据。如表8-1所示,经过计算各点的平均速度发现均小于城市交通最大速度阈值22.7m/s,并且点2和4的基站定位坐标相同,则判断编号为3的数据为伪漂移数据,应按照公式
表8-1伪漂移数据处理示意表
表8-2伪漂移数据处理示意表
步骤S9:进行数据清洗后的基站坐标修正操作:以沈阳市城区路网数据为例,首先将城市路网坐标数据以单位长度unit(路网坐标数据分割最小单元unit取0.03)进行分割;接着遍历经预清洗后的信令数据,在每一步遍历内先判断在该条信令数据中出行者所属的划分区域;最后针对该区域内所有的道路进行信令数据与路网数据的匹配:循环遍历每条路网中的相邻结点,计算当前信令数据基站坐标的欧式距离,找出距离最小的路网结点作为该信令数据中基站坐标修正后的点,修正后的数据如表9所示。
表9修正基站定位数据示