图1 两种数据更新空间范围
纸质出版日期:2022-09-25,
网络出版日期:2022-01-18
扫 描 看 全 文
引用本文
阅读全文PDF
导航平台路段速度和浮动车GPS速度是常用的道路运行车速数据源,单独使用一种数据进行相关研究存在实时更新数据路网覆盖率低、数据质量不稳定等问题。基于数据可靠性的动态权值数据融合方法,文章将导航平台路段速度和浮动车GPS速度进行了融合。先将两种数据进行空间和时间同步化处理,并针对路段数据和GPS数据设计不同的数据可靠性评估算法;再将实时更新的导航平台路段速度和浮动车GPS速度基于数据可靠性融合,得到最终的路段速度。实验表明:导航平台路段数据、GPS路段数据的平均时间粒度更新路网覆盖率分别为60.32%和33.43%,基于数据可靠性的融合数据达到了74.29%,路段速度平均误差降低到了3.82 km/h,均优于导航平台路段速度、GPS路段速度和固定权值的融合速度。
Road section speed of navigation platform and GPS speed of floating car are common sources of road speed data. Using one of the data alone for related research will have problems such as low coverage of real-time update data, unstable data quality and so on. Therefore, a real-time dynamic weight data fusion method based on data reliability is proposed, which fuses the navigation platform road section speed and floating car GPS speed. Before the two kinds of data fusion, space and time are synchronized, and different data reliability evaluation algorithms are designed for the navigation platform road section data and floating car GPS data. Then, the real-time updated navigation platform road section speed and floating car GPS speed are fused based on data reliability to get the final road section speed. The experimental results show that: the average time granularity data updating network coverage rate of navigation platform road section data and GPS road section data are 60.32% and 33.43% respectively, the fusion data based on data reliability is 74.29%, and the average error of road section speed is reduced to 3.82 km/h, which are better than navigation platform road section speed, GPS road section speed and data fusion speed according to fixed weight.
随着智慧交通建设的展开,交通数据采集能力有所提升,数据种类与数量增长迅速,交通大数据的应用成为了交通信息化水平提升的关键。导航平台路段速度数据和浮动车GPS速度数据具有数据量大、数据更新稳定、容易获取等优点,被广泛应用于交通领域,是常用的道路运行车速数据源。导航平台路段速度数据是指高德或百度等互联网公司发布的实时路段速度数据,此类数据以不同长度的路段为单元进行反馈,包含路段位置、长度、道路等级、运行车速等信息;而浮动车GPS数据是指实时采集的出租车、公交车、网约车等车辆的位置及速度等数据,将其位置坐标与地图进行匹配,可以得到的路段速度数据。
大多数学者都是基于其中一种数据进行相关研究。刘瑶杰[
本文将导航平台路段数据和浮动车GPS数据进行对比分析,提出了数据可靠性概念。针对导航平台路段速度和浮动车GPS速度设计不同的数据可靠性评估算法,基于数据可靠性指数赋予两类数据实时动态权值并进行融合。该研究方法不仅可以避免单一数据源出现异常造成较大误差的情况,同时可以提高实时更新数据的路网覆盖率,有助于进行区域交通研究。
本研究所用到的数据包括导航平台路段数据和浮动车GPS数据,导航平台路段数据采用的是高德地图的路段速度数据,浮动车GPS数据采用的是营运车辆车载GPS产生的速度数据,数据所在区域为佛山市,数据时间范围为2019年10月15日至11月14日。高德路段速度数据以不同长度的路段为单元进行反馈,共计52 752条路段产生731 732 350条数据记录,数据时间粒度为2 min,路段数据的主要字段及释义如
字段 | 字段类型 | 字段释义 |
---|---|---|
gid | int | 路段编号 |
roadname | string | 路段名称 |
roadclass | int | 路段等级 |
length | float | 路段长度/m |
width | float | 路段宽度/m |
maxlanes | int | 路段车道数 |
lane_wide | float | 单车道宽度/m |
direction | int | 路段方向 |
ad_code | int | 行政区代码 |
geom | geometry | 地理范围 |
updatetime | timestamp | 更新时间 |
speed | int | 速度/(km·h-1) |
浮动车GPS数据主要包括出租客运、公交客运、网约车、普通货运等10类营运车辆车载GPS所产生的数据,共计92 827辆浮动车产生约50亿条数据记录,数据更新时间不定,浮动车GPS数据的主要字段及释义如
由于导航平台路段速度数据是以不同长度的路段为单元进行反馈,而浮动车GPS数据是以车辆GPS点为单元生成数据记录,且两种数据的更新频率不同,数据融合前需先将两种数据进行空间和时间同步化处理,主要是对浮动车GPS数据进行处理。处理过程包括GPS数据清洗、统一空间坐标系、路网匹配以及路段速度计算4个部分,处理成为时间粒度为2 min的GPS路段速度数据。
浮动车GPS数据清洗是为了剔除经纬度异常、速度异常、时间异常、长期停驶等异常数据。浮动车GPS数据以经纬度为坐标,采用WGS84空间坐标系,而高德路段数据采用GCJ02坐标系,因此需要将两者统一到同一坐标系下。本研究采用的方法是将GPS数据坐标和路网地图的坐标转化到同一投影坐标下进行计算,所采用的投影坐标是:Xian_1980_3_Degree_GK_Zo-ne_38,WKID为2362。使用投影坐标的优点是可以将经纬度转化成以m为单位,以便于浮动车GPS点与道路的距离和后续的路网匹配算法的计算。
路网匹配算法主要是利用方向匹配法和最短距离法进行路网匹配。根据浮动车GPS数据的行车方向与高德路段数据行车方向的一致性以及最短距离原则,将浮动车GPS数据匹配到距离最近且与行车方向一致的路段。随机选择一辆公交车在一定时段内产生的GPS数据进行验证,预处理后的GPS数据有4 162条,正确匹配的数据有3 965条,匹配准确率达到95.3%,则认为该匹配方法能够满足研究需求。路段速度计算是利用浮动车GPS数据的速度字段作为瞬时速度,计算2 min内在同一路段上的所有浮动车速度的平均值,作为这条路段在2 min内的速度。
导航平台路段速度数据和浮动车GPS数据由于数据终端采集、传输等均不相同,数据的更新频率和更新范围也有差异。经统计分析发现路段速度数据实时更新较为稳定,更新数据空间范围也相对固定,但更新的部分路段数据质量较差,存在路段更新速度一直为0 km/h、连续多次更新速度为同一值以及个别速度值异常等问题。以2019年11月14日为例,有数据更新的路段有32 614条,占佛山市总路段条数的61.83%,路段数据更新情况如
图1 两种数据更新空间范围
Fig.1 The spatial range of two kinds of data updating
将浮动车GPS数据清洗后匹配到路段,通过统计分析发现GPS路段数据的更新空间范围较广,但由于实时车辆路段覆盖强度不同,存在部分路段数据缺失、不完整等问题。以2019年11月14日为例,有数据更新的路段有51 708条,占佛山市总路段条数的98.02%,路段数据更新情况如
通过上述分析可知两种数据各有优缺点,导航平台路段速度数据更新稳定但范围不够广,浮动车GPS数据更新范围广但实时更新稳定性较差,而且由于两种数据源不同,两种数据实时更新的路段覆盖范围也不相同。结合两种数据的特征将其融合,不仅可以有效提高路段速度数据的准确率,同时可以提高实时更新数据的路网覆盖率,即提高了查准率和查全率。
本文所提出的基于数据可靠性的导航平台路段速度和浮动车GPS速度融合算法,如
图2 数据融合算法框架
Fig.2 Framework of data fusion algorithm
路段速度数据本质上是由交通出行者决定的,而出行者的出行特征总体上具有一定的时间空间分布规律,因此导致了路段速度数据也具有一定的时间周期性和时空相关性。本文以路段历史速度数据以及与之相邻的上下游路段历史速度数据进行路段速度数据可靠性评估。城市路网中存在交叉口会将不同道路打断成多条封闭路段,但为排除交叉口对路段速度的影响,封闭路段不包括交叉口临近路段,封闭路段示意图如
图3 封闭路段示意图
Fig.3 Schematic diagram of closed road section
图4 高德路段数据可靠性评估算法
Fig.4 Reliability evaluation algorithm for Gaode road section data
在高德路段数据中加入表征星期的列,取值1~7。输入某路段当前更新时刻的高德路段速度vl和该路段及其上下游路段历史数据中同星期几、同时、同分的速度值组成历史数据集Hl,求出该数据集的阈值集合[Hlmin,Hlmax]和均值Hlmean。当实时路段速度vl∈[Hlmin,Hlmax],说明该速度数据较为可靠,则当前更新时刻路段数据的可靠性指数rl为1;当实时路段速度vl∉[Hlmin,Hlmax],则该路段速度数据的可靠性指数与实时速度和历史数据集均值的差值成反比。若该路段的历史数据集均值等于0且当前实时速度等于0,则该路段速度数据的可靠性指数为0;若该路段的历史数据集均值等于0且当前实时速度不为0,则该速度数据的可靠性指数为1。
浮动车GPS数据的应用是通过将其匹配到具体的路段上来计算路段速度,因此浮动车GPS数据的可靠性评估包括两部分:1)2 min时间间隔内成功匹配到某一路段上的GPS数据条数直接决定了GPS数据的可靠性。GPS数据条数越多数据可靠性就越高,反之则存在数据偶然性的概率越大;2)基于该路段历史同更新时刻且匹配GPS数据条数较多的路段速度组成的历史数据集,该路段当前更新时刻的路段速度与历史数据集的偏差决定了GPS数据的可靠性,偏差越大,可靠性越低。
利用数理统计方法确定基于路段平均速度估计的最小GPS数据样本量,即对于某条路段,若给定允许速度误差δ、样本标准差为s,置信度水平为(1-α),则GPS数据样本数量n应满足
n≥(tα2,n-1×s/δ)2 , | (1) |
式中tα2,n-1为n-1自由度的t分布值。
由上式可计算出,当某条路段时间粒度GPS数据样本数量n≥5时,置信度水平(1-α)≥0.9。即认为若当前时刻成功匹配到某路段上的GPS点数≥5个,则该路段的可靠性指数较高。路段浮动车GPS数据可靠性评估算法如
图5 GPS数据可靠性评估算法流程
Fig.5 Procedure of data reliability evaluation algorithm for GPS data
在浮动车GPS数据中加入表征星期的列,取值1~7。整个可靠性评估算法包含两部分:1)由成功匹配到路段的GPS点数决定路段GPS样本量可靠性指数rg1。2)将该路段历史数据中同星期几、同时、同分且匹配到该路段的GPS个数≥5的路段速度值组成历史数据集,评估方法与高德路段数据相同,得出GPS路段速度的可靠性指数rg2,最后将两部分的可靠性指数进行平均得到该路段当前更新时刻浮动车GPS数据可靠性指数rg。
在进行高德路段速度数据和浮动车GPS数据的数据可靠性评估后,可得出当前时刻的高德路段速度数据的可靠性指数rl和GPS路段数据的数据可靠性指数rg。将实时更新的高德路段速度vl和浮动车GPS平均速度vg,基于数据可靠性指数进行加权平均得到路段融合后的最终速度v,路段当前更新时刻的最终速度可表示为
v=vlrl+vgrgrl+rg . | (2) |
实验中高德路段速度数据和浮动车GPS数据的历史数据集均为2019年10月15日至11月13日,共30 d。以2019年11月14日的数据为测试集,实验数据样例如
编号 | 星期 | 更新时刻 | 速度/(km·h-1) | 历史数据阈值区间 | 历史数据集均值 | vl |
---|---|---|---|---|---|---|
3 | 4 | 00:02 | 50 | [40,90] | 58.25 | 1.00 |
4 | 4 | 00:02 | 63 | [51,88] | 60.92 | 1.00 |
5 | 4 | 00:02 | 67 | [40,90] | 61.62 | 1.00 |
… | … | … | … | … | … | … |
18 397 | 4 | 12:58 | 70 | [54,78] | 67.83 | 1.00 |
18 398 | 4 | 12:58 | 58 | [54,78] | 65.25 | 1.00 |
18 399 | 4 | 12:58 | 76 | [61,74] | 68.50 | 0.89 |
… | … | … | … | … | … | … |
52 747 | 4 | 24:00 | 69 | [63,75] | 69.33 | 1.00 |
527 48 | 4 | 24:00 | 71 | [63,75] | 69.75 | 0.85 |
52 749 | 4 | 24:00 | 52 | [23,40] | 35.75 | 0.55 |
编号 | 星期 | 更新时刻 | 速度/(km·h-1) | GPS个数 | rg1 | 历史数据阈值区间 | 数据集均值 | rg2 | rg |
---|---|---|---|---|---|---|---|---|---|
2 | 4 | 00:02 | 48.75 | 8 | 1.00 | [60.40,73.50] | 66.95 | 0.73 | 0.87 |
3 | 4 | 00:02 | 35.00 | 2 | 0.40 | 0.40 | |||
4 | 4 | 00:02 | 42.00 | 4 | 0.80 | 0.80 | |||
… | … | … | … | … | … | … | … | … | … |
18 396 | 4 | 12:58 | 56.25 | 8 | 1.00 | [33.36,68.40] | 47.97 | 1.00 | 1.00 |
18 397 | 4 | 12:58 | 61.00 | 2 | 0.40 | [55.33,80.75] | 65.46 | 1.00 | 0.70 |
18 398 | 4 | 12:58 | 59.00 | 2 | 0.40 | [21.25,70] | 45.12 | 1.00 | 0.70 |
… | … | … | … | … | … | … | … | … | … |
52 716 | 4 | 24:00 | 63.00 | 2 | 0.40 | — | — | — | 0.40 |
52 743 | 4 | 24:00 | 67.20 | 10 | 1.00 | [52.33,70.50] | 64.19 | 1.00 | 1.00 |
52 745 | 4 | 24:00 | 68.00 | 2 | 0.40 | — | — | — | 0.40 |
将基于数据可靠性的实时动态权值融合数据与单独使用某一种数据或固定权值的融合数据的数据质量进行对比,以验证本文所提出算法的有效性和实用性。本文以平均时间粒度数据更新的路网覆盖率(RNC,road network coverage)和路段速度平均绝对误差(MAE)为评价指标。定义
RNC=1NLTT∑j=1N∑i=1li×100% , | (3) |
MAE=1TT∑i=1(|v-vs|) , | (4) |
式中N表示每个时间粒度更新的路段数,li表示更新路段的长度,L表示路网总长度,v表示更新数据中的速度值,vs表示实际测量的速度值,T表示时间粒度的个数。
3.2.1 平均时间粒度路段更新的比例
本文的融合数据、高德路段速度数据、浮动车GPS数据的平均时间粒度更新的路网覆盖率如
图6 不同数据实时更新数据路网覆盖率
Fig.6 Real time update of road network coverage with different data
3.2.2 路段速度平均绝对误差
采用了实地调查的方式,对融合的速度数据的准确度进行校验。在佛山市主城区随机选取了6条两类数据更新状况均良好的路段,调查人员站在调查路段中间位置,所选路段及测量点如
图7 测量路段示意图
Fig.7 Schematic diagram of survey road
调查时间为2019年11月14日,调查时段分为早高峰7:00~9:00,晚高峰17:00~19:00,平峰时段10:00~12:00和14:00~16:00,每个时间段为2 h,选取其中1 h进行不间断测量,保证每条路段被测时段包含一个高峰时段和一个平峰时段。测量路段的编号、名称、道路等级、长度等基本属性,以及测量时段如
编号 | 道路名称 | 长度/m | 宽度/m | 车道数 | 道路等级 | 行车方向 | 平峰测量时段 | 高峰测量时段 |
---|---|---|---|---|---|---|---|---|
37732 | 佛山大道中 | 392.8 | 10.5 | 3 | 快速路 | 3 | 15:30~16:30 | 17:00~18:00 |
37999 | 佛山大道北辅路 | 272.1 | 9 | 3 | 主干路 | 3 | 15:30~16:30 | 17:00~18:00 |
38784 | 汾江南路 | 189.4 | 9 | 3 | 主干路 | 2 | 8:00~9:00 | 10:00~11:00 |
39830 | 佛山大道中 | 392.2 | 10.5 | 3 | 快速路 | 2 | 15:30~16:30 | 17:00~18:00 |
40315 | 汾江南路 | 164.8 | 9 | 3 | 主干路 | 2 | 8:00~9:00 | 10:00~11:00 |
42204 | 汾江中路 | 214 | 6 | 2 | 主干路 | 2 | 8:00~9:00 | 10:00~11:00 |
调查人员是由专业技术人员担任,使用雷达测速仪测速时随机选择被测车辆,避免总是选择车队的第一辆车、某一车道车辆比例过大、某一种车型比例过大或者高速行驶车辆比例过大等情况,同时调查人员在测速时隐蔽在驾驶员不易发现的位置,尽量保证调查结果能够真实地反映车辆行驶状况。
调查人员调查时首先使用皮尺测量路段长度并确定路段中点位置,并选定固定测速点位置。正式测量开始时,调查人员使用雷达测速仪不间断测速记录,测量频率平均约为5 s/次,并以2 min为时间粒度进行分隔,取2 min内所测得的所有速度样本的平均值为当前时间粒度的实测速度值。
将高德路段速度、GPS路段速度和两种数据按1∶1固定权值融合、按照本文提出的实时动态权值融合,并与实测速度值进行对比,结果如
图8 各测量路段的不同数据速度波动曲线
Fig.8 Different data speed fluctuation curve of each measurement road section
本文提出了一种基于数据可靠性的动态权值融合方法,将导航平台路段速度数据和浮动车GPS速度数据进行了融合。以佛山市的高德路段速度数据和浮动车GPS数据为例,对两类数据进行空间和时间同步化处理,并针对高德路段速度数据和浮动车GPS数据设计不同的可靠性评估算法。将实时更新的高德路段速度和GPS路段速度基于数据可靠性指数进行加权平均得到了融合后最终的路段速度。验证实验表明:基于数据可靠性的动态权值融合方法有效地提高了实时更新数据的路网覆盖率和数据准确度,不仅降低了单一数据源出现异常造成的误差,同时避免了固定权值融合不考虑数据源质量简单加权融合的弊端。
本文提出的方法虽然在导航平台路段速度数据和浮动车GPS速度数据融合中具有较好的应用效果,但由于不同类型数据源的特征不同,在后续的研究工作中,尝试将该方法应用到其他类型数据源融合场景中。此外,还可以挖掘更多的速度数据特征,进一步优化数据融合算法,提高融合数据精度。
刘瑶杰. 基于实时路况的交通拥堵时空聚类分析——以北京市二环以内为例[D]. 北京:首都师范大学, 2014. [百度学术]
孟晓彤. 基于实时路况的兰州市城关区交通拥堵时空特征及对策探究[D]. 兰州:兰州大学, 2017. [百度学术]
鲁武当. 基于交通态势数据的城市道路平均行程速度时空分布特征及预测研究[D]. 西安:长安大学, 2019. [百度学术]
邹蕊烛. 基于浮动车GPS数据的交通区域状况分析[D]. 西安:长安大学, 2018. [百度学术]
贾洪飞, 郭明雪, 罗清玉, 等. GPS数据下的城市路网关键路段识别[J]. 吉林大学学报(工学版), 2020, 50(4): 1338-1344. [百度学术]
LI C. The analysis of urban residential activities based on taxi GPS data[J]. Applied Mechanics & Materials, 2013, 253/254/255: 1816-1819. [百度学术]
赵顺晶, 李浩, 汤夕根, 等. 一种基于FCD与互联网数据融合的交通拥堵指数评价方法:中国, 11159672.7[P]. 2018-02-03. [百度学术]
ALWAN A A, NORDIN A, ALZEBER M, et al. A survey of schema matching research using database schemas and instances[J]. International Journal of Advanced Computer Science and Applications, 2017(8): 102-111. [百度学术]
丁玥, 王涓, 卢卫, 等. 面向多源关系数据的融合[J]. 中国科学: 信息科学, 2020, 50(5): 649-661. [百度学术]
陈磊, 王江锋, 谷远利, 等. 基于思维进化优化的多源交通数据融合算法[J]. 吉林大学学报(工学版), 2019, 49(3): 705-713. [百度学术]
崔青华, 聂庆慧, 基于多源交通数据可靠性的行程时间短时预测[C]// 第九届中国智能交通年会, 2020. [百度学术]
战昕. 交通系统数据融合算法研究[D]. 西安:西安工业大学, 2018. [百度学术]
52
浏览量
140
下载量
0
CSCD
相关文章
相关作者
相关机构