提取出租车订单的OD
从大量的GPS信息中提取出每个出租车订单的起点和终点
数据是出租车GPS的散点时空数据,散点时间间隔大概在15s(取决于GPS的采样频率),因此要提取出乘客出行的OD信息,首先要定义乘客的上车时点、下车时点选取标准,然后基于标准将上、下车时点数据筛选出来,最后整理成最终的OD数据。
上下车的节点选择
处理异常数据:假设0代表乘客下车,1代表乘客上车,则铺货到的合理的数据应该是连续的一段1or连续的一段0,如果突然出现单独的0在1中间,或者单独的1在0之间,就代表是异常数据。因为取样频率只有15s,不能在15s之内上车,下车换另一个乘客。
对异常数据进行清晰
- 清洗后的数据按车辆ID(VehicleNum)、时间(Stime)进行排序;
-
用python的shift方法,把数据表整体往上移一行;
- 将原表与上移后的表拼接起来,在一行中得到了同一车辆当前时刻和下一时刻的GPS信息;
- 提取出乘客上车、下车的时点数据:
- 拼接后的样例: