一种基于复杂网络理论的交通风险预测方法
技术领域
本发明提出了一种基于复杂网络理论的交通风险预测方法,它涉及风险分析、网络科学等技术领域。
背景技术
风险是指某可能发生的事件,如果发生则能够阻碍系统的发展,甚至走向衰亡,风险也被定义为事件发生与否的不确定性。风险在系统中客观存在,可以通过采用防范措施防止或降低风险发生导致的损失,却不能消除风险。在复杂系统中由于系统中的风险常常以发生突然、波及范围大、破坏力强的特点出现,给系统风险的识别预测和预防带来极大困难,也给复杂系统的风险管理控制及预防的研究提出新的挑战,并且系统风险的发生带来的损失会给人们的生活甚至社会的运行带来巨大的影响,因此采用科学的、合理的方法对复杂系统中的风险进行准确的预测是十分必要的。交通系统在人们出行及城市运转等方面扮演着重要的角色,近年来,随着移动互联及车载技术的快速发展,交通系统在结构和功能上呈现出高复杂性的特点。在复杂多变的环境及需求下,交通系统会面临车祸、施工封闭及暴雨、雪灾等人为及天然风险状况的发生,这些交通风险事件往往会造成交通拥堵,同时交通系统具有时空演化特性,其风险事件发生后会在交通系统中传播,进而给居民出行增添大量额外成本并且给社会带来了极大的资源浪费,因此,对交通系统中的风险进行准确地识别及预测,为管理及控制交通系统风险策略的制定具有重要意义。
在当前对交通系统进行风险识别及预测的研究中,主要方法有基于模型(Model-based)的分析方法、定性分析和定量分析,特别是基于工艺流程图(PFD)和灰色关联分析对系统的结构和功能进行描述,通过分析系统偏差产生情况及各影响因素之间的关联程度对其进行量化来识别和预测风险;此外,随着大数据时代的到来及其技术的发展,发展了基于知识(Knowledge-based)的分析方法,其主要方法有因果关系模型、机器学习模型及深度学习模型等,这些方法模型基于交通系统产生的实证数据,如:交通流量、车载速度等,构建历史数据集运用模型发现和揭示数据中的未知关系和模式,从而对交通系统中的风险状态进行识别及预测。上述方法仅从交通系统状态出发运用已知的模型和数据对交通系统的风险进行预测,并没有从网络层面动态地考虑交通系统中各风险之间的关联关系及演化的模式,难以解释交通系统风险形成的内在机理。因此,针对结构和功能复杂性强的交通系统,本发明将复杂网络理论与机器学习方法相结合对交通系统风险进行识别预测,为研究交通系统中风险识别预测及管理控制提供了新视角、新方法,丰富了人们对于交通系统中风险的认知,对保证交通系统健康平稳的运行具有重要意义。
发明内容
(一)发明的目的
本发明主要用于解决在复杂系统与网络结构背景下的风险识别及预测问题,目前现有的方法主要从系统的功能出发分析交通系统的风险,针对交通系统高复杂性及时空演化特性、现有方法不能够很好地识别及预测系统风险,因此针对于现有方法的不足,本发明从复杂网络的角度出发,综合考虑交通系统的功能和结构两个维度,提出了一种基于复杂网络理论的交通风险预测方法。本发明提出的方法可以有效地对交通系统的风险进行识别预测,为交通系统的风险诊断、针对性管理控制措施的制定及交通运行可靠性的提升提供重要支持。
(二)技术方案
为了实现上述目的,本发明的方法所采用的技术方案是:一种基于复杂网络理论的交通风险预测方法。
本发明所述的“一种基于复杂网络理论的交通风险预测方法”,其步骤如下:
步骤A:基于实证数据划分网格构建双层交通网络模型;
步骤B:基于复杂网络理论的特征提取及筛选;
步骤C:基于集成学习理论进行风险预测;
步骤D:模型评价及验证。
通过以上步骤,可以实现交通系统进行风险预测的目的,该方法的系统性强、可移植度高、易于操作,解决了复杂交通系统中风险难以识别预测的问题。
其中,步骤A中所述的“基于实证数据划分网格构建双层交通网络模型”,其做法如下:首先,获取研究区域道路的基础信息,其主要包括交通网络道路信息和交通道路交叉路口的经纬度信息两部分,根据研究区域范围的面积及大小,依据道路路段及交叉路口的经纬度信息划分成N*M个网格区域,并对其进行标号;其次,针对每个网格区域,在微观层面在网格内部根据实际交通数据,以交叉路口作为节点、以路段作为边和以路段的相对速度作为边权,运用复杂网络理论及方法构建网格交通拥堵网络模型;在宏观层面,本发明将每个网格区域作为节点、网格与网格之间是否存在拥堵道路作为是否连边的判断条和以网格之间存在拥堵道路的数量作为边权,运用复杂网络理论及方法构建网格节点交通网络模型;其具体作法如下:
步骤A1:基于地理信息划分网格区域;
步骤A2:速度数据预处理,获取相对速度矩阵
步骤A3:构建网格交通拥堵网络模型G1(N1,L1);
步骤A4:构建网格节点交通网络模型G2(N2,L2);
其中,在步骤A1中所述的“基于地理信息划分网格区域”,其具体做法如下:首先,利用编程软件Python从地理信息系统(Mapinfo)文件里提取交通网络模型及划分网格区域所需的交通道路信息,提取的信息主要包含每个时刻下各道路的车载速度、交叉路口的经纬度信息及所研究交通系统的网络拓扑结构信息等,在提取交叉路口经纬度过程中,本发明利用Python调用百度地图应用程序编程接口(API)并采用顺序遍历的方法利用路网的拓扑结构和交叉路口名称匹配得到路口的经纬度信息,并对由于百度地图和Mapinfo上道路交叉路口名称的差异性而导致经纬度获取失败的道路及路口信息处理得到准确标准的交通系统路网经纬度信息数据集;其次,根据上述所得到的研究区域的交通道路信息及交叉路口的经纬度信息,计算所研究区域内的面积S及经纬度的取值范围,并根据所研究区域的实际背景情况科学合理的确定划分网格数量为N*M个,则每个网格的面积为S/(N*M);最后,根据划分的网格区域,依据交通网络中每个交叉路口的经纬度信息针对每个网格区域统计有哪些交叉路口在此网格中,并进行记录;
其中,在步骤A2中所述的“速度数据预处理,获取相对速度矩阵
上式中,
如果道路Rj的所有邻居道路速度均没有记录,则将此道路Rj的速度补偿为0,在每次补偿后将原始的速度矩阵
在对原始绝对速度矩阵
其中,在步骤A3中所述的“构建网格交通拥堵网络模型G1(N1,L1)”,其具体做法如下:针对步骤A中划分的各个网格区域,在每个网格区域下依照实际地图数据,首先运用Python及Mapinfo等软件工具抽取出的道路之间的结构信息和各个网格区域中所包含的道路交叉路口信息;其次,按照实际研究的需要,选定合适的交通的地理覆盖范围,比如选择北京市的五环内交通网络;然后,按照复杂网络的方法,在每个网格区域中将道路交叉路口抽象为网络中的节点,将网格区域交通网络中的道路抽象为网络中各节点间的连边,并以每条道路的相对速度作为连边的权重,以此来在每个网格区域中建立网格交通拥堵网络;同时,由于交通网络大多数道路都是双向行驶且具有方向性,因此,本发明构建的网格交通拥堵网络为有向加权网络;
其中,在步骤A4中所述的“构建网格节点交通网络模型G2(N2,L2)”,其具体做法如下:首先,根据各个网格区域中所包含的交叉路口信息及整个研究区域交通网络(整网)的道路拓扑结构信息,构建网格之间交叉路口交通网络模型,即在整网的基础上删除网格区域内部所包含的道路拓扑结构信息;其次,统计网格区域与网格区域之间存在的拥堵道路的数量,并记录下来;最后,根据上述信息,运用复杂网络的理论及方法,将网格区域抽象为节点、网格与网格之间是否存在拥堵道路抽象为连边,并以网格之间拥堵道路的数量作为连边权重,以此来建立网格节点交通网络模型,由于此宏观层面的网格交通网络模型连边为无向的,因此本文发明构建网格节点交通网络模型为无向加权网络。
其中,在步骤B中所述的“基于复杂网络理论的特征提取及筛选”,其做法如下:针对每个时刻ti的网格交通拥堵网络和网格节点交通网络(简称为双层交通网络),设定渗流阈值q(t)对其进行渗流分析,并通过对双层交通网络的渗流分析确定渗流阈值q(t);其次,针对每个时刻在其渗流阈值q(t)下的各个网格交通拥堵网络和网格节点交通网络中的节点(网格)为研究对象,并运用复杂网络的理论及方法提取每个网格区域的特征,包括最大拥堵子团、节点介数均值、节点度均值、网格拥堵网络的平均速度及一阶近邻拥堵道路的数量等结构及功能特征,并在此基础上运用机器学习方法对提取的特征筛选,选择对交通风险识别及预测效果贡献较大的特征,构建高质量样本特征集,最大程度上提升交通风险识别及预测的效果及效率;同时,以各个网格区域中t+Δt时刻拥堵道路比例对t时刻的网格区域进行打标签;以上所述过程的具体步骤如下:
步骤B1:交通网络的渗流分析;
步骤B2:基于复杂网络的风险特征提取;
步骤B3:基于机器学习的风险特征筛选;
其中,在步骤B1中所述的“交通网络的渗流分析”,其具体做法如下:运用渗流理论对双层交通网络进行渗流分析,首先针对每一个时刻的交通网络,给定一个控制变量,即渗流阈值,设其为q(t),则在此交通网络中每一条道路将会呈现出两种状态:畅通状态(即vi_ratio(t)>q(t))和拥堵状态(即vi_ratio(t)≤q(t));将这个交通网络中畅通的连边从原始的网络中删除,将拥堵的连边保留在原始的交通网络中,剩下的网络就是t时刻处于拥堵状态的交通网络,简称为拥堵网络;在每个时刻下一个q(t)值对应一个拥堵网络,并且随着q(t)值的减小,该交通网络变得越拥堵,即失效的边越多,交通网络变得越来越稀疏,因此,选择在合适的渗流阈值q(t),即城市交通网络处于拥堵信息最丰富的阶段时,对当前时刻的交通拥堵风险进行识别及预测;
其中,在步骤B2中所述的“基于复杂网络的风险特征提取”,其具体做法如下:在本步骤中本发明在渗流阈值q(t)下对每个时刻构建网格交通拥堵网络和网格节点交通网络,从统计物理学的角度出发,运用复杂网络理论及方法从结构和功能两个角度出发对每个时刻下双层交通网络的网格区域初步进行微观及宏观特征提取;首先,在微观层面,将各个网格交通拥堵网络作为研究的对象,并在每个时刻下的关键渗流阈值处计算每个网格区域的微观特征;网格交通拥堵网络在不同的时刻其特征不同,并且网格区域中的拥堵网络能够随着时间的演化在空间上表现出动态的特征,因此,网格交通拥堵网络具有时空特性;其次,在宏观层面,针对构建的网格节点交通网络模型,以其节点(网格区域)为研究对象,在每个时刻下计算网格区域(节点)的宏观特征,如图2所示,如微观特征:网格交通拥堵网络的最大拥堵子团、节点介数的均值、节点度均值、集聚系数均值、拥堵网络的平均速度及其增长率等,宏观特征:网格节点交通网络的节点平均路径长度、节点的强度、节点介数、节点度及其增长率等;
在本发明中,从复杂网络的角度对提取特征提供了一种方法,并对网格的特征提取进行举例,在针对实际的交通系统,可根据其实际背景及情况,从其结构和功能的两个方面出发,针对性初步提取其特征构建样本特征集,构建初始特征矩阵Mf;
其中,在步骤B3中所述的“基于机器学习的风险特征筛选”,其具体做法如下:在步骤B2中基于复杂网络的相关知识对每个时刻的网格区域提取其功能和结构上的特征后构建初始特征矩阵Mf,为了提高对交通系统中风险识别及预测的准确率及精度,在该步骤中运用机器学习的相关理论方法对初步构建的样本特征集进行特征选择,筛选出高质量的样本特征集,最大程度上提升交通系统中风险识别及预测的效果;同时,对交通系统的结构及功能特征进行筛选,筛选出重要的特征去除不相关特征能够缓解维数灾难、降低学习任务的难度,减少过拟合增强机器学习模型的泛化能力;针对交通系统具有时空演化的高复杂性特点和为了对给定的学习器进行优化,本发明运用包裹式中较为经典的LVW(Las VegasWrapper)方法进行特征选择,如图3所示,其具体步骤如下:
(1)设置初始最优误差E为无穷大,目前最优特征子集为属性全集A,重复次数t=0;
(2)随机产生一组特征子集A',计算使用该特征子集时分类器的误差E';
(3)如果E'比E小,则令A'=A,E'=E并重复(2)、(3)步,否则t++,当t大于等于停止控制参数T时跳出循环;
在计算过程中LVM方法直接把最终将要使用的学习器性能作为特征子集的评价准则,为给定的学习器选择最有利其性能、“量身定做”的特征子集,筛选出高质量的样本特征集,构建特征矩阵
其中,在步骤C中所述的“基于集成学习理论进行风险识别及预测”,其做法如下:为了准确地对交通系统中的拥堵风险进行识别及预测,并对其进行有效地控制,本步骤将首先运用机器学习及数学的相关知识构建集成学习模型;其次,为了消除各特征向量之间的量纲不统一对模型产生的影响,运用特征缩放的方法数据特征集
步骤C1:构建集成学习模型;
步骤C2:运用集成学习模型进行风险识别及预测;
其中,在步骤C1中所述的“构建集成学习模型”,其具体做法如下:本发明的目标是运用交通系统的风险历史数据信息学习出一个较为稳定且性能较好的模型,相较于单分类器模型,集成学习模型在学习方面表现更为突出,为了弥补单分类器模型学习的弊端,在本发明中引入集成学习理论,构造集成学习模型对交通系统进行风险识别及预测;集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,其潜在的核心思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来,目前主流的集成学习框架有Bagging、Boosting及Stacking,本发明运用Bagging框架和集成学习相关的理论方法构建随机森林模型对交通系统进行风险识别及预测,如图4所示,其实现步骤如下:
(1)假设存在数据集D={xi1,xi2,…,xin,yi}(i∈[1,m]),有特征数N,有放回的抽样生成抽样空间(m*n)m*n;
(2)构建基学习器(决策树):针对每一个抽样dj={xi1,xi2,…,xik,yi}(i∈[1,m]),(其中K<<M)生成决策树,并记录每一个决策树的结果hj(x);
(3)训练T次使
通过以上过程构建特殊的二值分类器,即随机森林模型,对交通系统中的风险进行识别及预测,在此过程中分类函数为符号函数,输出值为0和1,分别表示网格区域低风险和高风险,如下所示:
上式中,f(xi)表示第i个网格区域的风险状态,0代表低风险,1代表高风险;
同时,运用集成学习理论构建集成学习模型对交通系统进行风险识别及预测过程中可根据数据样本的分布特征选择合适的集成学习架构和模型进行风险的识别及预测,进一步提高交通系统风险识别及预测的效果;
其中,在步骤C2中所述的“运用集成学习模型进行风险识别及预测”,其具体做法如下:在本步骤中,基于上述步骤C中已提取筛选好的高质量样本特征集,即特征矩阵
在对交通系统中的样本数据集进行特征缩放后,在本步骤中,基于交通系统的标准样本特征矩阵
其中,在步骤D中所述的“模型评价及验证”,其做法如下:在运用步骤C中构建的集成学习模型对交通系统中的风险进行识别及预测过程中,为了准确科学地对模型的性能进行评价,在本步骤中,首先基于实际交通系统情况和本发明的最终目标,合理的选取评价指标,例如:准确率、精准率、召回率、F1值等,其本质根据混淆矩阵(Confusion Matrix)进行计算;其次,为了防止模型过拟合和准确地评估模型的泛化能力,本步骤中对集成学习模型运用交叉验证的方法进行评价,进一步提高对模型评价的科学性及可靠性;其具体包括以下子步骤:
步骤D1:选取模型评价指标;
步骤D2:模型的评价分析;
其中,在步骤D1中所述的“选取模型评价指标”,其具体做法如下:本发明是针对交通系统中的风险进行识别及预测,其最终目标是运用集成学习模型准确科学地对交通系统中的风险进行识别,其本质属于机器学习中的异常检测问题,主要的特点是存在数据类别不均衡问题,即正常数据的样本量大而风险数据的样本量小,因此,单独使用准确率不能够客观反映出模型性能的优劣;根据本发明面对的场景是风险识别检测问题,在此场景下,本发明中将采用召回率和准确率两个评价指标对模型进行评价,其公式如下:
上式中Accuracy表示准确率,recall表示召回率,TP是正确预测到的正例的数量;TN是正确预测到的负例的数量,FP是把负例预测成正例的数量,FN是把正例预测成负例的数量;
在交通系统中真正具有风险的单元里将其预测错情况应该越少越好,因为交通系统中真正拥堵风险如果没有识别出来,一旦发生则会对交通系统造成巨大程度的危害,因此,需更加关注召回率;同时为了保证将正常准确预测为正常,减小正常样本预测的错误率,让交通系统的管理者在有限的资源成本下,最大程度上准确地管理和控制交通系统中真正的风险,因此引入准确率及召回率作为模型的评价指标;
其中,在步骤D2中所述的“模型的评价分析”,其具体做法如下:在本步骤中,为了防止模型过拟合和准确地评估模型的泛化能力,运用机器学习中交叉验证的方法对集成学习模型进行评价,进一步提高对模型评价的科学性及可靠性;交叉验证的经典方法主要有:留一法、K折交叉验证、自助法等,在本发明中运用自助法进行交叉验证,其步骤如下所示:
(1)在含有N个样本的数据集中,每次随机挑选一个样本,将其作为训练样本;
(2)将(1)中随机挑选的样本放回到原始数据集中,这样有放回地抽样N次,生成一个与原始数据集大小相同的数据集,这个新数据集就是训练集;
(3)经过N次抽取原数据集中大概有
(4)重复上述步骤M次,则能够训练出M个模型并得到其评价指标的值,然后取平均值,则可得到该模型的性能评价值。
通过以上步骤,本发明基于复杂网络理论及集成学习理论方法,从复杂网络的角度出发,综合考虑交通系统的功能和结构两个维度,为交通风险的识别提供了科学可靠的技术支持和理论支撑;本发明提出的技术方法能够高效准确地对交通系统的风险进行识别和预测,为交通系统的风险诊断、针对性管理控制措施的制定以及交通运行可靠性的提升提供重要支持。
(三)优点和功效
本发明提供了一种基于复杂网络理论的交通风险预测方法,具有以下优点:
(1)全局性:本发明从微观和宏观两个层面构建交通网络模型提取其功能和结构特征,极大提高交通系统风险预测的准确率,对理解交通系统风险演化机理及提高交通系统可靠性具有重大意义;
(2)时效性:本发明能够实时监控交通状态和预测未来风险,为交通系统风险管控策略的制定及实施提供了有力的支撑,从而保障系统健康平稳运行;
(3)可扩展性:本发明提出的风险预测方法,能够拓展到其他类型复杂系统的风险识别及预测当中,例如生物系统、通信系统及金融系统等。
(4)本发明所述方法科学,工艺性好,具有广阔推广应用价值。
附图说明
图1是本发明所述的交通风险预测方法流程图。
图2是本发明的交通风险特征体系图。
图3是本发明的包裹式特征选择的处理逻辑图。
图4是本发明的随机森林模型架构图。
图5是本发明的随机森林模型评价指标趋势图。
图中序号、符号、代号说明如下:
S:所研究区域的面积;
Vi:ti时刻R条道路的速度向量;
G1(N1,L1):网格交通拥堵网络模型;
G2(N2,L2):网格节点交通网络模型;
q(t):t时刻下交通网络的渗流阈值;
Vi_ratio:归一化后的速度向量;
Mf:初始特征矩阵;
f(xi):第i个网格区域的风险状态
Accuracy:模型准确率;
Recall:模型召回率;
TP:正确预测到的正例的数量;
TN:正确预测到的负例的数量;
FP:把负例预测成正例的数量;
FN:把正例预测成负例的数量。
具体实施方式
为使本发明要解决的技术问题、技术方案更加清楚,下面将结合附图及具体实施案例进行详细描述。应当理解,此处所描述的实施实例仅用于说明和解释本发明,并不用于限定本发明。
下面结合附图说明及具体实施方式对本发明进一步说明。
本发明实施例所使用的实际交通系统数据由QF科技公司提供的北京市五环区域内所有道路一定时间跨度内各条路段上的浮动车实时速度数据统计的时间间隔为1分钟,时间粒度较高,同时时段0:00-23:59,共有1440个时刻,在本实施例中运用2015年10月20日的数据进行研究分析。
本发明实施例的一种基于复杂网络理论的交通风险预测方法,见图1所示,其具体实施步骤如下:
步骤A:基于实证数据划分网格构建双层交通网络模型;
步骤B:基于复杂网络理论的特征提取及筛选;
步骤C:基于集成学习理论进行风险预测;
步骤D:模型评价及验证。
通过以上步骤,可以实现交通系统进行风险预测的目的,该方法的系统性强、可移植度高、易于操作,解决了复杂交通系统中风险难以识别预测的问题。
其中,步骤A中所述的“基于实证数据划分网格构建双层交通网络模型”,其做法如下:首先,获取研究区域道路的基础信息,其主要包括交通网络道路信息和交通道路交叉路口的经纬度信息两部分,根据研究区域范围的面积及大小,依据道路路段及交叉路口的经纬度信息划分成N*M个网格区域,并对其进行标号;其次,针对每个网格区域,在微观层面在网格内部根据实际交通数据,以交叉路口作为节点、以路段作为边和以路段的相对速度作为边权,运用复杂网络理论及方法构建网格交通拥堵网络模型;在宏观层面,本发明将每个网格区域作为节点、网格与网格之间是否存在拥堵道路作为是否连边的判断条和以网格之间存在拥堵道路的数量作为边权,运用复杂网络理论及方法构建网格节点交通网络模型。
步骤A1:基于地理信息划分网格区域;
步骤A2:速度数据预处理,获取相对速度矩阵
步骤A3:构建网格交通拥堵网络模型G1(N1,L1);
步骤A4:构建网格节点交通网络模型G2(N2,L2);
其中,在步骤A1中所述的“基于地理信息划分网格区域”,其具体做法如下:首先,利用Python语言Mapinfo文件里提取交通网络模型及划分网格区域所需的交通道路信息,提取的信息主要包含每个时刻下各道路的车载速度、交叉路口的经纬度信息及北京市五环交通系统的网络拓扑结构信息等,在提取交叉路口经纬度过程中,本发明利用Python调用百度地图API并采用顺序遍历的方法利用路网的拓扑结构和交叉路口名称匹配得到路口的经纬度信息,并对由于百度地图和Mapinfo上道路交叉路口名称的差异性而导致经纬度获取失败的道路及路口信息处理得到准确标准的交通系统路网经纬度信息数据集;其次,根据上述所得到的北京市五环交通道路信息及交叉路口的经纬度信息,计算北京五环区域内的面积S为667平方公里,其经度的取值范围为116.20~116.56、纬度的取值范围为39.76~40.03,并根据北京五环区域内的实际背景情况科学合理的确定划分网格数量为2500个,则每个网格的面积为516m*516m;最后,根据划分的网格区域,依据交通网络中每个交叉路口的经纬度信息针对每个网格区域统计有哪些交叉路口在此网格中,并进行记录。
在步骤A2中所述的“速度数据预处理,获取相对速度矩阵
上式中,
如果道路Rj的所有邻居道路速度均没有记录,则将此道路Rj的速度补偿为0,在每次补偿后将原始的速度矩阵
在对原始绝对速度矩阵
在步骤A3中所述的“构建网格交通拥堵网络模型G1(N1,L1)”,其具体做法如下:针对步骤A中划分的各个网格区域,在每个网格区域下依照北京市五环实际地图数据,首先运用Python及Mapinfo等软件工具抽取出的道路之间的结构信息和各个网格区域中所包含的道路交叉路口信息;其次,选择北京市的五环内交通网络;然后,按照复杂网络的方法,在每个网格区域中将道路交叉路口抽象为网络中的节点,将网格区域交通网络中的道路抽象为网络中各节点间的连边,并以每条道路的相对速度作为连边的权重,以此来在每个网格区域中建立网格交通拥堵网络;同时,由于北京市五环交通网络大多数道路都是双向行驶且具有方向性,因此,本发明构建的网格交通拥堵网络为有向加权网络。
在步骤A4中所述的“构建网格节点交通网络模型G2(N2,L2)”,其具体做法如下:首先,根据各个网格区域中所包含的交叉路口信息及整个北京市五环交通网络(整网)的道路拓扑结构信息,构建网格之间交叉路口交通网络模型,即在整网的基础上删除网格区域内部所包含的道路拓扑结构信息;其次,统计网格区域与网格区域之间存在的拥堵道路的数量,并记录下来;最后,根据上述信息,运用复杂网络的理论及方法,将网格区域抽象为节点、网格与网格之间是否存在拥堵道路抽象为连边,并以网格之间拥堵道路的数量作为连边权重,以此来建立网格节点交通网络模型,由于此宏观层面的网格交通网络模型连边为无向的,因此本文发明构建网格节点交通网络模型为无向加权网络。
其中,步骤B中所述的“基于复杂网络理论的特征提取及筛选”,其做法如下:针对每个时刻ti的网格交通拥堵网络和网格节点交通网络(简称为双层交通网络),设定渗流阈值q(t)对其进行渗流分析,并通过对双层交通网络的渗流分析确定渗流阈值q(t)=0.5;其次,针对每个时刻在其渗流阈值为0.5下的各个网格交通拥堵网络和网格节点交通网络中的节点(网格)为研究对象,并运用复杂网络的理论及方法提取每个网格区域的特征,包括最大拥堵子团、节点介数均值、节点度均值、网格拥堵网络的平均速度及一阶近邻拥堵道路的数量等结构及功能特征,并在此基础上运用机器学习方法对提取的特征筛选,选择对交通风险识别及预测效果贡献较大的特征,构建高质量样本特征集,最大程度上提升交通风险识别及预测的效果及效率;同时,以各个网格区域中t+Δt时刻拥堵道路比例对t时刻的网格区域进行打标签。以上所述过程的具体步骤如下:
步骤B1:交通网络的渗流分析;
步骤B2:基于复杂网络的风险特征提取;
步骤B3:基于机器学习的风险特征筛选;
在步骤B1中所述的“交通网络的渗流分析”,其具体做法如下:运用渗流理论对双层交通网络进行渗流分析,首先针对每一个时刻的交通网络,给定一个控制变量,即渗流阈值,设其为q(t),则在此交通网络中每一条道路将会呈现出两种状态:畅通状态(即vi_ratio(t)>q(t))和拥堵状态(即vi_ratio(t)≤q(t));将这个交通网络中畅通的连边从原始的网络中删除,将拥堵的连边保留在原始的交通网络中,剩下的网络就是t时刻处于拥堵状态的交通网络,简称为拥堵网络;在每个时刻下一个q(t)值对应一个拥堵网络,并且随着q(t)值的减小,该交通网络变得越拥堵,即失效的边越多,交通网络变得越来越稀疏,因此,选择在合适的渗流阈值q(t)=0.5,即城市交通网络处于拥堵信息最丰富的阶段时,对当前时刻的交通拥堵风险进行识别及预测;
在步骤B2中所述的“基于复杂网络的风险特征提取”,其具体做法如下:在本步骤中本发明在渗流阈值q(t)=0.5下对每个时刻构建网格交通拥堵网络和网格节点交通网络,从统计物理学的角度出发,运用复杂网络理论及方法从结构和功能两个角度出发对每个时刻下双层交通网络的网格区域初步进行微观及宏观特征提取。首先,在微观层面,将各个网格交通拥堵网络作为研究的对象,并在每个时刻下的关键渗流阈值处计算每个网格区域的微观特征;网格交通拥堵网络在不同的时刻其特征不同,并且网格区域中的拥堵网络能够随着时间的演化在空间上表现出动态的特征,因此,网格交通拥堵网络具有时空特性;其次,在宏观层面,针对构建的网格节点交通网络模型,以其节点(网格区域)为研究对象,在每个时刻下计算网格区域(节点)的宏观特征,如图2所示,如微观特征:网格交通拥堵网络的最大拥堵子团、节点介数的均值、节点度均值、集聚系数均值、拥堵网络的平均速度及其增长率等,宏观特征:网格节点交通网络的节点平均路径长度、节点的强度、节点介数、节点度及其增长率等。
在本发明中,从复杂网络的角度对提取特征提供了一种方法,并对网格的特征提取进行举例,在针对实际的北京市五环交通系统,可根据其实际背景及情况,从其结构和功能的两个方面出发,针对性初步提取其特征构建样本特征集,构建初始特征矩阵Mf,维度为(8752,40,30),即共8752个样本,每个样本共有40个特征。
在步骤B3中所述的“基于机器学习的风险特征筛选”,其具体做法如下:在步骤B2中基于复杂网络的相关知识对每个时刻的网格区域提取其功能和结构上的特征后构建初始特征矩阵Mf,为了提高对北京市五环交通系统中风险识别及预测的准确率及精度,在步骤中运用机器学习的相关理论方法对初步构建的样本特征集进行特征选择,筛选出高质量的样本特征集,最大程度上提升交通系统中风险识别及预测的效果;同时,对北京市五环交通系统的结构及功能特征进行筛选,筛选出重要的特征去除不相关特征能够缓解维数灾难、降低学习任务的难度,减少过拟合增强机器学习模型的泛化能力;针对北京市五环交通系统具有时空演化的高复杂性特点和为了对给定的学习器进行优化,本发明运用包裹式中较为经典的LVW(Las Vegas Wrapper)方法进行特征选择,如图3所示。运用LVM方法,筛选出高质量的样本特征为:网格交通拥堵网络的点介数方差、边介数方差、网格拥堵道路比例、网格节点交通网络的节点介数5个特征及其增长率,共10个特征,并构建出高质量特征矩阵
其中,步骤C中所述的“基于集成学习理论进行风险识别及预测”,其做法如下:为了准确地对北京市五环交通系统中的拥堵风险进行识别及预测,并对其进行有效地控制,本步骤将首先运用机器学习及数学的相关知识构建集成学习模型;其次,为了消除各特征向量之间的量纲不统一对模型产生的影响,运用特征缩放的方法数据特征集
步骤C1:构建集成学习模型;
步骤C2:运用集成学习模型进行风险识别及预测;
在步骤C1中所述的“构建集成学习模型”,其具体做法如下:本发明的目标是运用北京市五环交通系统的风险历史数据信息学习出一个较为稳定且性能较好的模型,相较于单分类器模型,集成学习模型在学习方面表现更为突出,为了弥补单分类器模型学习的弊端,在本发明中引入集成学习理论,构造集成学习模型对交通系统进行风险识别及预测。集成学习就是组合多个弱监督模型以期得到一个更好更全面的强监督模型,其潜在的核心思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来,目前主流的集成学习框架有Bagging、Boosting及Stacking,本发明运用Bagging框架和集成学习相关的理论方法构建随机森林模型对交通系统进行风险识别及预测,如图4所示,在最后对各基学习器结果进行综合评价时本发明中采取相对多数投票法。
通过以上过程构建特殊的二值分类器,即随机森林模型,对北京市五环交通系统中的风险进行识别及预测,在此过程中分类函数为符号函数,输出值为0和1,分别表示网格区域低风险和高风险,如下所示:
上式中,f(xi)表示第i个网格区域的风险状态,0代表低拥堵风险,1代表高拥堵风险。
同时,运用集成学习理论构建集成学习模型对北京市五环交通系统进行风险识别及预测过程中可根据数据样本的分布特征选择合适的集成学习架构和模型进行风险的识别及预测,进一步提高交通系统风险识别及预测的效果。
在步骤C2中所述的“运用集成学习模型进行风险识别及预测”,其具体做法如下:在本步骤中,基于上述步骤C中已提取筛选好的高质量样本特征集,即特征矩阵
在对北京市五环道路交通系统中的样本数据集进行特征缩放后,在本步骤中,基于交通系统的标准样本特征矩阵
其中,步骤D中所述的“模型评价及验证”,其做法如下:在运用步骤C中构建的集成学习模型对交通系统中的风险进行识别及预测过程中,为了准确科学地对模型的性能进行评价,在本步骤中,首先基于实际交通系统情况和本发明的最终目标,合理的选取评价指标,例如:准确率、精准率、召回率、F1值等,其本质根据混淆矩阵(Confusion Matrix)进行计算;其次,为了防止模型过拟合和准确地评估模型的泛化能力,本步骤中对集成学习模型运用交叉验证的方法进行评价,进一步提高对模型评价的科学性及可靠性。其具体包括以下一个子步骤:
步骤D1:选取模型评价指标;
步骤D2:模型的评价分析;
在步骤D1中所述的“选取模型评价指标”,其具体做法如下:本发明是针对交通系统中的风险进行识别及预测,其最终目标是运用集成学习模型准确科学地对交通系统中的风险进行识别,其本质属于机器学习中的异常检测问题,主要的特点是存在数据类别不均衡问题,即正常数据的样本量大而风险数据的样本量小,因此,单独使用准确率不能够客观反映出模型性能的优劣。根据本发明面对的场景是风险识别检测问题,在此场景下,本发明中将采用召回率和准确率两个评价指标对模型进行评价,其公式如下:
上式中Accuracy表示准确率,recall表示召回率,TP是正确预测到的正例的数量;TN是正确预测到的负例的数量,FP是把负例预测成正例的数量,FN是把正例预测成负例的数量。
在北京市五环内道路交通系统中真正具有风险的单元里将其预测错情况应该越少越好,因为北京市五环内道路交通系统中真正拥堵风险如果没有识别出来,一旦发生则会对交通系统造成巨大程度的危害,因此,需更加关注召回率;同时为了保证将正常准确预测为正常,减小正常样本预测的错误率,让交通系统的管理者在有限的资源成本下,最大程度上准确地管理和控制交通系统中真正的风险,因此引入准确率作为模型的评价指标。运用集成学习中随机森林模型对北京市五环内道路交通系统拥堵风险的识别及预测,其准确率为89.83%,召回率为86.74%,处于较高的水平,模型的性能较好。
在步骤D2中所述的“模型的评价分析”,其具体做法如下:在本步骤中,为了防止模型过拟合和准确地评估模型的泛化能力,运用机器学习中交叉验证的方法对集成学习模型进行评价,进一步提高对模型评价的科学性及可靠性。交叉验证的经典方法主要有:留一法、K折交叉验证、自助法等,在本发明中运用自助法进行交叉验证,其步骤如下所示:
(1)在含有8752个样本的数据集中,每次随机挑选一个样本,将其作为训练样本;
(2)将(1)中随机挑选的样本放回到原始数据集中,这样有放回地抽样8752次,生成一个与原始数据集大小相同的数据集,这个新数据集就是训练集;
(3)经过8752次抽取原数据集中大概有3221个样本不会出现在新数据集中,因此,将把未出现在新数据集中的样本作为验证集;
(4)重复上述步骤10次,则能够训练出10个模型并得到其评价指标的值,然后取平均值,则可得到该模型的性能评价值。
如图5所示,运用随机森林模型对北京市五环内道路交通系统拥堵风险的识别及预测,并运用自助法对模型进行10次交叉验证,其准确率的均值在92.84%左右,召回率的均值在92.45%左右,处于较高的水平,表示模型的泛化能力较强,并具有较好的性能,能够较为准确可靠地识别及预测北京市五环内道路交通系统中的拥堵风险,为保证其安全平稳健康的运行提供了有力的保障。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。