本文作者:kaifamei

基于深度强化学习的混合交通流控制方法、介质及设备与流程

更新时间:2025-01-13 10:54:18 0条评论

基于深度强化学习的混合交通流控制方法、介质及设备与流程



1.本发明属于数字化智慧交通领域,具体涉及一种基于深度强化学习的混合交通流预测方法、介质及设备。


背景技术:



2.随着城市化建设的推进和人民物质水平的提高,机动车保有量不断增加,交通拥堵问题变得更加显著。交通拥堵带来潜在事故风险,运输资源浪费,造成经济损失,也为人民众出行带来困难。特别是一些由于环境因素的制约,极容易造成容量下降的现象产生,影响交通运行效率,需要一种有效的管控策略,提升交通路网的通行效率。
3.为提升交通效率,学者们对如果进行有效的交通管控进行了一些研究和探索。卢顺达等就拥堵状态下交通网络的流量分配模型及算法展开研究,汇总为学位论文《交通管控条件下拥堵交通网络流分配模型及算法》;公布号为cn 110648533a,名为“一种交通管控方法、设备、系统及存储介质”的发明专利、公布号为cn 112233435b,名为“一种交通管控方法、系统、终端设备及存储介质”的发明专利、授权公告号为cn 205486832 u,名为“智能城市交通管控系统”的实用新型专利,从信号控制、信息物理系统构建等角度对交通控制提出了一些理念和创新性想法。上述研究成果可以一定程度上提升交通路网通行效率,但这些方法的局限性比较明显,总结如下:
4.(1).利用路侧检测信息可以对小范围交通进行更为精准的引导和管控,可以实现了对本地、近端和远端全方位的交通管控,但管控依赖于生成的引导信息,不能满足管控的及时性,也缺乏持续优化的能力;
5.(2).通过对信号灯的调控确保路口安全性并减少无意义等待,而适用范围较窄,仅限于市域交通,对于高速公路等场景的管控并不适用;
6.(3).建立了通过网络相互连接的信息终端、信息节点和信息中枢,使获取的车辆信息更加可靠,但缺乏在管控策略方面的创新,和如何利用这些信息上的说明;
7.(4).考虑了交叉口延误和路段容量对交通分配的影响,建立了带转向延误和路段容量约束的用户均衡交通流分配模型,能较好的反映交叉口延误对交通分配的影响,但忽略了计划交通分配与实际运行之间的差距,使得实际管控水平有所降低。


技术实现要素:



8.本发明的目的在于解决现有技术中存在的问题,提出一种基于深度强化学习的交通流控制方法、介质及设备,该方法考虑了实际道路运载体对道路交通指令并不完全遵从的特点,提出混合交通流概念,并结合遵从道路交通指令的运载体比例,设计深度强化学方法,对道路交通指令的设计提供策略依据。
9.为实现上述发明目的,本发明具体采用的技术方案如下:
10.第一方面,本发明提供了一种基于深度强化学习的混合交通流控制方法,其包括以下步骤:
11.s1、对待进行交通流控制的目标区域路网基于数字孪生技术进行数字建模,形成数字路网;再通过目标区域路网中的感知节点对运载体车辆的状态信息进行采集,并将采集的状态信息与所述数字路网进行动态耦合;
12.s2、对步骤s1所得运载体车辆状态信息进行统计处理,得到各节点流量数据和各运载体车辆的运动状态数据;
13.s3、在所述数字路网环境中,利用s2中统计处理得到的数据对预先构建的深度强化学习模型进行迭代训练,且每一轮迭代训练后,由模型动态生成道路多节点限速指令策略,然后将该策略应用于数字路网中进行交通流控制并对该策略应用后的运载体车辆的状态信息进行采集,重新通过统计处理获得新的各节点流量数据和各运载体车辆的运动状态数据,用于进行下一轮迭代训练;深度强化学习模型迭代训练至策略收敛稳定后,停止训练,输出最终的道路多节点限速指令策略;
14.s4、将s3所生成的最终的道路多节点限速指令策略应用于真实的目标区域路网环境中,对真实路网进行交通流控制。
15.作为上述第一方面的优选,所述目标区域路网中运行的运载体车辆包含服从道路限速指令的智能运载体和不遵从道路限速指令的非智能运载体,两者共同构成混合交通流。
16.作为上述第一方面的优选,所述深度强化学习模型为多智能体深度强化学习模型,所有的智能体共享同一个策略,其中单个智能体的深度强化学习被形式化为一个马尔可夫决策过程(markov decision process,mdp);所述马尔可夫决策过程由元组《s,a,tf,π,r》描述,其中表示系统状态集合,s
t
表示第t个时间步的智能运载体状态,t表示一个交通流控制周期的时域长度;表示系统动作集合,a
t
表示第t个时间步的智能运载体动作;tf是一个把t时刻状态s
t
和相应动作a(s
t
)映射到t+1时刻状态s
t+1
的一个方程,s
t+1
=tf(s
t
,a
t
);表示系统策略集合,π
t
表示第t个时间步的交通流控制策略;为回报奖励集合,其中r
t
表示t时刻系统得到的回报值,表示为r
t
(s
t
,a
t
)=n
t
/n,其中n
t
为t时刻流出区域路网的交通流量,n为用于将累积奖励保持在一个合理值的归一化参数。
17.作为上述第一方面的优选,所述马尔可夫决策过程具体为通过轨迹和动态规划方法,生成若干行为策略μ,以探索一个目标策略π,能极大化目标函数:
[0018][0019]
其中:n表示轨迹的时间长度,表示期望,v
π
(s
t
)表示目标策略π下的最优价值函数,k表示t时刻之后的时间步,γ∈[0,1)表示衰减因子(discounting factor),γk表示γ的k次方;
[0020]
所述马尔可夫决策过程问题使用多表演者评论家(actor-critic)框架进行求解,所述表演者用于生成轨迹所述评论家使用表演者生成的轨迹数据更新生
成行为策略μ的策略模型权重并将权重信息发回表演者以继续生成新的轨迹,不断循环直至收敛;定义k时间步n时间长度对应的的价值函数v(s
t
)近似方程为:
[0021][0022]
式中:是第t个时间步的价值函数v(sk)对应的时序差分(temporal differential error),表示为其中其中和是重要性采样的权重,和分别是ρ
t
和c
t
的上界值,π(a
t
∣s
t
)表示t时刻状态s
t
下采取动作a
t
时的目标策略,μ(a
t
|s
t
)表示t时刻状态s
t
下采取动作a
t
时的行为策略;目标函数vk使用如下的方式进行迭代计算:
[0023][0024]
其中
[0025]
所述策略π对应的价值函数v
π
(s
t
)需采取参数化近似方法进行逼近处理,给定t时刻v
π
(s
t
)参数化近似逼近解为v
θ
(s
t
),其相应的策略π参数化为π
ω
,其中θ和ω均为可训练参数;在训练时刻k,参数θ会沿着如下方向向着目标函数vk更新:
[0026][0027]
同时参数ω会沿着如下方向向着目标策略更新:
[0028][0029]
将以上两个梯度方向使用权重系数相乘求和的方式叠加在一起,选择l2损失为损失函数,使用梯度下降法即可完成算法的一次参数θ和ω的训练;
[0030]vθ
(sk)每次往vk上更新,最终收敛到的状态价值函数是介于v
π
(s
t
)和v
μ
(s
t
)之间的一个值,v
μ
(s
t
)表示行为策略μ对应的价值函数,相应收敛稳定的策略为:
[0031][0032]
最终由策略进行抽样得到所述动作a
t
,满足
[0033]
作为上述第一方面的优选,所述智能运载体能够获得车辆自身及周边临近车辆的速度、加速度和航向角状态,并能即时响应道路限速指令,所述道路限速指令等同于智能运载体车辆的指令速度,所有的智能运载体车辆共享同一个指令速度生成策略,且所述指令速度生成策略如下:
[0034]
给定智能运载体在过去n

次观测值的车辆平均速度为:
[0035][0036]
其中:vi表示第i次的测量速度;
[0037]
智能运载体捕获前方车辆的速度并进行估计,所估计目标速度为:
[0038][0039]
其中:v
avg
+v
catch
表示目标车辆速度的上界,v
catch
表示后车的超车速度,g
l
和gu分别表示下界和上界的调节阈值;
[0040]
当前智能运载体在j+1时刻的指令速度为:
[0041][0042]
其中:参数参数参数为j时刻的指令速度策略,v
jtgt
为j时刻的目标速度,为j时刻的前车当前车速,δxs表示安全行驶距离,δx为当前智能运载体与前车之间的距离;
[0043]
智能运载体在t+1时刻的指令速度与由策略进行抽样得到的动作a
t
之间存在相关关系。
[0044]
作为上述第一方面的优选,所述智能运载体分为仅能够由车辆自身控制加速度的速度响应型智能运载体和能够被车辆外部的设备控制车辆加速度的加速度响应型智能运载体;对于速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的最终速度,对于加速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的加速度。
[0045]
作为上述第一方面的优选,近似解v
θ
(s
t
)由带有注意力机制的lstm网络求解得到;给定t时刻智能运载体的状态向量为p
t
,则所述马尔可夫决策过程系统状态s
t
计算方式如下:
[0046]st
=relu(w
p
p
t
+bs),
[0047]
其中relu为激活函数,w
p
为lstm网络的权重参数,bs为偏置;
[0048]
基于所得系统状态s
t
,lstm网络进行的后续计算如下,
[0049]ft
=sigmoid(w
fsst
+w
fhht-1
+bf),
[0050]it
=sigmoid(w
isst
+w
ihht-1
+bi),
[0051]ot
=sigmoid(w
osst
+w
ohht-1
+bo),
[0052]ct
=o
tct-1
+i
t
tanh(w
csst
+w
chht-1
+bc),
[0053]ht
=o
t
tanh(c
t
),
[0054]
其中,sigmoid、tanh都是激活函数,w
fs
,w
fh
,w
is
,w
ih
,w
os
,w
oh
,w
cs
,w
ch
是lstm的权重参数,bf,bi,bo,bc是偏置参数,h
t-1
,c
t-1
为前一时刻隐藏状态,h
t
,c
t
是当前时刻隐藏状态,f
t
,i
t
,ot分别代表遗忘门、输入门和输出门的结果;各层隐藏状态h
t
的堆叠构成lstm网络的输出lstm
out

[0055]
基于所得的网络输出lstm
out
,使用注意力机制模块生成v
θ
(s
t
);其中,所述注意力机制模块的注意力分值计算方式如下,
[0056][0057]
其中w
att
,b
att
,u
att
均为注意力参数;
[0058]
所述注意力机制模块的输出为:
[0059][0060]
最终,所述v
θ
(s
t
)通过一个全连接层获得:
[0061]vθ
(s
t
)=waattention
out
+ba,
[0062]
其中,wa为全连接层的权重参数,ba为全连接层的偏置参数,m表示注意力总头数。
[0063]
作为上述第一方面的优选,所述感知节点包含路侧摄像机、门架、线圈、毫米波雷达。
[0064]
第二方面,本发明提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如第一方面中任一方案所述的基于深度强化学习的混合交通流控制方法。
[0065]
第三方面,本发明提供了一种基于深度强化学习的道路交通流控制设备,其包括存储器和处理器;
[0066]
所述存储器,用于存储计算机程序;
[0067]
所述处理器,用于当执行所述计算机程序时,实现如第一方面中任一方案所述的基于深度强化学习的混合交通流控制方法。
[0068]
相较于现有技术而言,本发明的有益效果包括以下几方面:
[0069]
(1).本发明使用具有渗透率概念的混合交通流对实际交通路网进行建模,使用高精度数字孪生的方式建立数字化路网及交通流,使得所生成策略具有高度可用性,具有明确的现实指导意义;
[0070]
(2).本发明结合注意力机制和lstm网络,基于多智能体强化学习算法生成道路限速指令所需策略和价值函数,并使用饱和比例微分的方法生成道路限速指令,具有明显的技术先进性和实用性;
[0071]
(3).经实验评估,本发明可以有效提升区域交通路网的通行效率,缓解拥堵状况。
附图说明
[0072]
图1为基于深度强化学习的道路交通流控制方法流程图;
[0073]
图2为基于注意力机制和lstm网络的深度强化学习策略及价值函数运算原理图;
[0074]
图3为交通拥堵瓶颈道路及运载体混合交通流示意图;
[0075]
图4为运行本方法和不运行本方法的交通拥堵瓶颈道路总通行量对比图。
具体实施方式
[0076]
下面结合附图和具体实施例对本发明做进一步阐述和说明。
[0077]
本发明中提供了一种基于深度强化学习的混合交通流控制方法,其主要面向区域路网交通场景,视路网所承载的交通流为被控对象,为被控区域路网建立高精度数字孪生空间,通过摄像机、门架、线圈等路侧传感器对交通流进行采集并进行统计处理并映射如所建立数字孪生空间,进而设计多智能体深度强化学习算法产生多节点动态限速指令,对区域路网交通流进行调节,以提高交通最大通行量,缩短交通通行时间,实现交通效率的提升。
[0078]
需要说明的是,为了便于描述,将被控区域路网称为目标区域路网。目标区域路网中运行的运载体车辆包含服从道路限速指令的智能运载体和不遵从道路限速指令的非智能运载体,两者共同构成混合交通流。典型的的智能运载体为自动驾驶汽车,而非智能运载体为需要驾驶员自行驾驶的传统汽车。
[0079]
本发明提出混合交通流的概念以适应交通运载体运行的实际情况,以多智能体深度强化学习方法对混合交通流中的智能运载体单元进行建模和管控策略求解。深度强化学习(deep reinforcement learning,drl)是深度学习与强化学习相结合的产物,通过深度学习的方式使智能体单元在环境中迭代学习执行动作的方法以获得系统最大的累计奖励。具体的,本专利使用多层感知机对路网中的智能运载体单元进行特征提取,使用具有注意力机制的lstm网络对所提取的特征进行处理,计算强化学习的价值目标函数和相应策略所需变量,然后使用off-policy策略的表演者-评论家(actor-critic)方法完成智能运载体控制策略求解。本发明结合了现实中仅一部分运载体遵从道路指令的特性,具有明确的现实意义,与无管控的交通路网相比,本发明对于交通总通行量的提升效果显著。
[0080]
需要说明的是,本发明中进行混合交通流控制时,核心需要生成的是道路多节点限速指令策略,这种策略中的具体指令类型需要根据目标区域路网的形式来进行选择。对于高速路网而言,其指令类型可以是车辆的限速指令,对于市内路网而言,其指令类型可以是路口信号灯的控制指令。下面实施例中,以高速路网为例,对基于深度强化学习的混合交通流控制方法的具体实现进行展示。
[0081]
在本发明的一个较佳实施例中,该基于深度强化学习的混合交通流控制方法具体包括以下步骤:
[0082]
s1、对待进行交通流控制的目标区域路网基于数字孪生技术进行数字建模,形成数字路网;再通过目标区域路网中的感知节点对运载体车辆的状态信息进行采集,并将采集的状态信息与所述数字路网进行动态耦合。
[0083]
需要说明的是,本发明中的感知节点可以是安装于路网中能够感知运载体车辆的状态信息的任意设备,常见的感知节点包含路侧摄像机、门架、线圈、毫米波雷达等。感知节点需要采集的运载体车辆的状态信息一般可包含车辆的速度、位置、加速度和方向角等于车辆运动相关的信息。
[0084]
需要说明的是,所谓将采集的状态信息与所述数字路网进行动态耦合,也就是将在现实路网中采集到的运载体车辆的状态信息映射至数字孪生空间中的数字路网中,以便于后续在数字路网中对策略进行迭代优化。
[0085]
s2、使用linux shell脚本和python科学计算工具软件,对步骤s1所得运载体车辆状态信息进行统计处理,得到各节点流量数据和各运载体车辆的运动状态数据。
[0086]
需要说明的是,运载体车辆的运动状态数据可以是车辆的速度、位置、加速度和方向角信息,而各节点流量数据则可以根据车辆的位置来统计通过该节点的车辆进行确定。
[0087]
s3、在所述数字路网环境中,利用s2中统计处理得到的数据对预先构建的深度强化学习模型进行迭代训练,且每一轮迭代训练后,由模型动态生成道路多节点限速指令策略,然后将该策略应用于数字路网中进行交通流控制并对该策略应用后的运载体车辆的状态信息进行采集,重新通过统计处理获得新的各节点流量数据和各运载体车辆的运动状态数据,用于进行下一轮迭代训练;深度强化学习模型迭代训练至策略收敛稳定后,停止训
练,输出最终的道路多节点限速指令策略。
[0088]
在本实施例中,上述深度强化学习模型为多智能体深度强化学习模型,所有的智能体共享同一个策略,其中单个智能体的深度强化学习被形式化为一个马尔可夫决策过程(markov decision process,mdp);所述马尔可夫决策过程由元组《s,a,tf,π,r》描述,其中表示系统状态集合,s
t
表示第t个时间步的智能运载体状态,表示一个交通流控制周期的时域长度;表示系统动作集合,a
t
表示第t个时间步的智能运载体动作;tf是一个把t时刻状态s
t
和相应动作a(s
t
)映射到t+1时刻状态s
t+1
的一个方程,s
t+1
=tf(s
t
,a
t
);表示系统策略集合,π
t
表示第t个时间步的交通流控制策略;为回报奖励集合,其中r
t
表示t时刻系统得到的回报值,表示为r
t
(s
t
,a
t
)=n
t
/n,其中n
t
为t时刻流出区域路网的交通流量,n为用于将累积奖励保持在一个合理值的归一化参数。
[0089]
在本实施例中,马尔可夫决策过程可构建为一个off-policy有限时域的mdp,即通过轨迹和动态规划方法,生成若干行为策略μ,以探索一个目标策略π,能极大化目标函数:
[0090][0091]
其中:n表示轨迹的时间长度,表示期望,v
π
(s
t
)表示目标策略π下的最优价值函数,k表示t时刻之后的时间步,γ∈[0,1)表示衰减因子(discounting factor),γk表示γ的k次方。
[0092]
上述mdp问题使用多表演者评论家(actor-critic)框架进行求解,所述表演者用于生成轨迹所述评论家使用表演者生成的轨迹数据更新生成行为策略μ的策略模型权重并将权重信息发回表演者以继续生成新的轨迹,不断循环直至收敛;定义k时间步n时间长度对应的的价值函数v(s
t
)近似方程为:
[0093][0094]
式中:是第t个时间步的价值函数v(sk)对应的时序差分(temporal differential error),表示为其中
[0095]
和是重要性采样的权重,和分别是ρ
t
和c
t
的上界值,π(a
t
∣s
t
)表示t时刻状态s
t
下采取动作a
t
时的目标策略,μ(a
t
|s
t
)表示t时刻状态s
t
下采取动作a
t
时的行为策略;目标函数vk使用如下的方式进行迭代计算:
[0096][0097]
其中
[0098]
所述策略π对应的价值函数v
π
(s
t
)需采取参数化近似方法进行逼近处理,给定t时
刻v
π
(s
t
)参数化近似逼近解为v
θ
(s
t
),其相应的策略π参数化为π
ω
,其中θ和ω均为可训练参数;在训练时刻k,参数θ会沿着如下方向向着目标函数vk更新:
[0099][0100]
同时参数ω会沿着如下方向向着目标策略更新:
[0101][0102]
将以上两个梯度方向使用权重系数相乘求和的方式叠加在一起,选择l2损失为损失函数,使用梯度下降法即可完成算法的一次参数θ和ω的训练;
[0103]vθ
(sk)每次往vk上更新,最终收敛到的状态价值函数是介于v
π
(s
t
)和v
μ
(s
t
)之间的一个值,v
μ
(s
t
)表示行为策略μ对应的价值函数,相应收敛稳定的策略为:
[0104][0105]
最终由策略进行抽样得到所述动作a
t
,满足
[0106]
在本实施例中,智能运载体能够获得车辆自身及周边临近车辆的速度、加速度和航向角状态,并能即时响应道路限速指令,所述道路限速指令等同于智能运载体车辆的指令速度,所有的智能运载体车辆共享同一个指令速度生成策略,且所述指令速度生成策略如下:
[0107]
给定智能运载体在过去n

次观测值的车辆平均速度为:
[0108][0109]
其中:vi表示第i次的测量速度;
[0110]
智能运载体捕获前方车辆的速度并进行估计,所估计目标速度为:
[0111][0112]
其中:v
avg
+v
catch
表示目标车辆速度的上界,v
catch
表示后车的超车速度,g
l
和gu分别表示下界和上界的调节阈值;
[0113]
当前智能运载体在j+1时刻的指令速度为:
[0114][0115]
其中:参数参数参数为j时刻的指令速度策略,为j时刻的目标速度,为j时刻的前车当前车速,δxs表示安全行驶距离,δx为当前智能运载体与前车之间的距离。参数αj用以确保两车间距较小时,指令车速策略受前车速度影响较大,而两车间距较大时,指令车速策略受自身目标速度影响较大;参数βj决定所述指令速生成策略在两种不同状态之间的切换效率。
[0116]
需要特别注意的是,智能运载体在t+1时刻的指令速度与由策略进行抽样得到的动作a
t
之间存在相关关系。具体的相关关系需要根据智能运载体的类型来定。
[0117]
一般而言,智能运载体分为仅能够由车辆自身控制加速度的速度响应型智能运载体和能够被车辆外部的设备控制车辆加速度的加速度响应型智能运载体,其中加速度响应型智能运载体对外提供了更高的控制权限,外部设备可以直接控制其加速度,而速度响应型智能运载体则无法被控制加速度,仅能够基于指令速度来通过车辆内置控制程序调整加速度使最终速度满足指令速度。因此,本发明中对于速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的最终速度,对于加速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的加速度。具体而言,对于速度响应型智能运载体,对于可获得更高控制权限的加速度响应型智能运载体,如l4级自动驾驶汽车,
[0118]
需要说明的是,上述指令速度记为s3中所生成的最终的道路多节点限速指令策略,其将下发并应用于真实的目标区域路网环境中,进行相应的交通流控制。
[0119]
在本实施例中,上述近似解v
θ
(s
t
)由带有注意力机制的长短记忆(long short term memory,lstm)循环神经网络求解得到;给定t时刻智能运载体的状态向量为p
t
,则mdp系统状态s
t
计算方式如下:
[0120]st
=relu(w
p
p
t
+bs),
[0121]
其中relu为激活函数,w
p
为lstm网络的权重参数,bs为偏置;
[0122]
基于所得系统状态s
t
,lstm网络进行的后续计算如下,
[0123]ft
=sigmoid(w
fsst
+w
fhht-1
+bf),
[0124]it
=sigmoid(w
isst
+w
ihht-1
+bi),
[0125]ot
=sigmoid(w
osst
+w
ohht-1
+bo),
[0126]ct
=o
tct-1
+i
t
tanh(w
csst
+w
chht-1
+bc),
[0127]ht
=o
t
tanh(c
t
),
[0128]
其中,sigmoid、tanh都是激活函数,w
fs
,w
fh
,w
is
,w
ih
,w
os
,w
oh
,w
cs
,w
ch
是lstm的权重参数,bf,bi,bo,bc是偏置参数,h
t-1
,c
t-1
为前一时刻隐藏状态,h
t
,c
t
是当前时刻隐藏状态,f
t
,i
t
,o
t
分别代表遗忘门、输入门和输出门的结果;各层隐藏状态h
t
的堆叠构成lstm网络的输出lstm
out

[0129]
基于所得的网络输出lstm
out
,使用注意力机制模块生成v
θ
(s
t
);其中,所述注意力机制模块的注意力分值计算方式如下,
[0130][0131]
其中w
att
,b
att
,u
att
均为注意力参数;
[0132]
所述注意力机制模块的输出为:
[0133][0134]
最终,所述v
θ
(s
t
)通过一个全连接层获得:
[0135]vθ
(s
t
)=waattention
out
+ba,
[0136]
其中,wa为全连接层的权重参数,ba为全连接层的偏置参数,m表示注意力总头数。
[0137]
s4、将s3所生成的最终的道路多节点限速指令策略应用于真实的目标区域路网环境中,对真实路网进行交通流控制。
[0138]
由于本实施例中,目标区域路网为高速路网,因此下发的道路多节点限速指令策略即为车辆的限速指令,路网中的各车辆收到限速指令后按照该指令调整各自的车速,即可完成控制。
[0139]
需要说明的是,上述s1~s4的过程可以不断地迭代进行,即每隔一定时间,可以利用真实的目标区域路网环境中新采集的数据,重新训练深度强化学习模型,以便于提高模型对于策略的优化能力。
[0140]
为了进一步展示本发明所能实现的技术效果,下面将上述s1~s4所示的基于深度强化学习的混合交通流控制方法,应用至某一具体实例场景中,以便于得到真实路网反馈,从而进行交通通行率提升效果评价。
[0141]
实施例
[0142]
环境准备:本实例为某高速公路交通瓶颈路段,四车道长度650米,四进二车道40米,两车道长度280米,二进一车道40米,单车道长度155米,使用sumo软件对该路网进行高精度数字孪生仿真建模,模拟混合交通流的生发。智能运载体能够获取到受控路段平均车速信息,瓶颈位置交通流信息,邻车状态信息等。图1为本实施例中基于深度强化学习的道路交通流控制方法流程图,图2为本实施例中基于注意力机制和lstm网络的深度强化学习策略及价值函数运算原理图,图3本实施例中为交通拥堵瓶颈道路及运载体混合交通流示意图。
[0143]
对比实验准备:设置实验组与对照组,实验组采用本发明中的管控策略,其中智能运载体渗透率为40%;对照组设定为无管控策略的自由流。
[0144]
实验环境的硬件配置为:一台服务器,cpu为英特尔i7-4790k,时钟频率为3.6ghz.
[0145]
实验环境的软件配置为:操作系统为ubuntu 20.10lts。使用anaconda进行环境管理,所部署python版本为3.6.13。所建立conda环境为tensorflow 1.15.0。模型训练配置为:epoch数量设置为50,采用adam作为训练优化算法,其学习率设置为0.0005。
[0146]
如图4所示,为运行本发明方法(即上述s1~s4所述的基于深度强化学习的混合交通流控制方法)和不运行本发明方法的交通拥堵瓶颈道路总通行量对比图。智能运载体占所有道路运行车辆的比率称之为渗透率,用来描述道路速度管控的可执行程度。其中运行本发明方法的实验组中渗透率设置为百分之四十。结果表明,运用本发明方法,能够有效提升道路通行效率,缓解拥堵状况。
[0147]
另外,在其他实施例中,还可以提供一种基于深度强化学习的道路交通流控制设备,其包括存储器和处理器;
[0148]
所述存储器,用于存储计算机程序;
[0149]
所述处理器,用于当执行所述计算机程序时,实现如上述s1~s4所述的基于深度强化学习的混合交通流控制方法。
[0150]
另外,在其他实施例中,还可以提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如上述s1~s4所述的基于深度强化学习的混合交通流控制方法。
[0151]
需要注意的是,上述的存储器可以包括随机存取存储器(random access memory,
ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、神经网络处理器(neural processor unit,npu)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路
[0152]
(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应当具有实现程序运行的必要组件,例如电源、通信总线等等。
[0153]
以上所述的实施例只是本发明的一种较佳的方案,然其并非用以限制本发明。有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

技术特征:


1.一种基于深度强化学习的混合交通流控制方法,其特征在于,包括以下步骤:s1、对待进行交通流控制的目标区域路网基于数字孪生技术进行数字建模,形成数字路网;再通过目标区域路网中的感知节点对运载体车辆的状态信息进行采集,并将采集的状态信息与所述数字路网进行动态耦合;s2、对步骤s1所得运载体车辆状态信息进行统计处理,得到各节点流量数据和各运载体车辆的运动状态数据;s3、在所述数字路网环境中,利用s2中统计处理得到的数据对预先构建的深度强化学习模型进行迭代训练,且每一轮迭代训练后,由模型动态生成道路多节点限速指令策略,然后将该策略应用于数字路网中进行交通流控制并对该策略应用后的运载体车辆的状态信息进行采集,重新通过统计处理获得新的各节点流量数据和各运载体车辆的运动状态数据,用于进行下一轮迭代训练;深度强化学习模型迭代训练至策略收敛稳定后,停止训练,输出最终的道路多节点限速指令策略;s4、将s3所生成的最终的道路多节点限速指令策略应用于真实的目标区域路网环境中,对真实路网进行交通流控制。2.如权利要求1所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述目标区域路网中运行的运载体车辆包含服从道路限速指令的智能运载体和不遵从道路限速指令的非智能运载体,两者共同构成混合交通流。3.如权利要求1所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述深度强化学习模型为多智能体深度强化学习模型,所有的智能体共享同一个策略,其中单个智能体的深度强化学习被形式化为一个马尔可夫决策过程(markov decision process,mdp);所述马尔可夫决策过程由元组<s,a,tf,π,r>描述,其中表示系统状态集合,s
t
表示第t个时间步的智能运载体状态,t表示一个交通流控制周期的时域长度;表示系统动作集合,a
t
表示第t个时间步的智能运载体动作;tf是一个把t时刻状态s
t
和相应动作a(s
t
)映射到t+1时刻状态s
t+1
的一个方程,s
t+1
=tf(s
t
,a
t
);表示系统策略集合,π
t
表示第t个时间步的交通流控制策略;为回报奖励集合,其中r
t
表示t时刻系统得到的回报值,表示为r
t
(s
t
,a
t
)=n
t
/n,其中n
t
为t时刻流出区域路网的交通流量,n为用于将累积奖励保持在一个合理值的归一化参数。4.如权利要求3所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述马尔可夫决策过程具体为通过轨迹和动态规划方法,生成若干行为策略μ,以探索一个目标策略π,能极大化目标函数:其中:n表示轨迹的时间长度,表示期望,v
π
(s
t
)表示目标策略π下的最优价值函数,k表示t时刻之后的时间步,γ∈[0,1)表示衰减因子(discounting factor),γ
k
表示γ的k次方;所述马尔可夫决策过程问题使用多表演者评论家(actor-critic)框架进行求解,所述表演者用于生成轨迹所述评论家使用表演者生成的轨迹数据更新生成行为
策略μ的策略模型权重并将权重信息发回表演者以继续生成新的轨迹,不断循环直至收敛;定义k时间步n时间长度对应的的价值函数v(s
t
)近似方程为:式中:是第t个时间步的价值函数v(s
k
)对应的时序差分(temporal differential error),表示为其中其中和是重要性采样的权重,和分别是ρ
t
和c
t
的上界值,π(a
t
|s
t
)表示t时刻状态s
t
下采取动作a
t
时的目标策略,μ(a
t
|s
t
)表示t时刻状态s
t
下采取动作a
t
时的行为策略;目标函数v
k
使用如下的方式进行迭代计算:其中所述策略π对应的价值函数v
π
(s
t
)需采取参数化近似方法进行逼近处理,给定t时刻v
π
(s
t
)参数化近似逼近解为v
θ
(s
t
),其相应的策略π参数化为π
ω
,其中θ和ω均为可训练参数;在训练时刻k,参数θ会沿着如下方向向着目标函数v
k
更新:同时参数ω会沿着如下方向向着目标策略更新:将以上两个梯度方向使用权重系数相乘求和的方式叠加在一起,选择l2损失为损失函数,使用梯度下降法即可完成算法的一次参数θ和ω的训练;v
θ
(s
k
)每次往v
k
上更新,最终收敛到的状态价值函数是介于v
π
(s
t
)和v
μ
(s
t
)之间的一个值,v
μ
(s
t
)表示行为策略μ对应的价值函数,相应收敛稳定的策略为:最终由策略进行抽样得到所述动作a
t
,满足5.如权利要求2所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述智能运载体能够获得车辆自身及周边临近车辆的速度、加速度和航向角状态,并能即时响应道路限速指令,所述道路限速指令等同于智能运载体车辆的指令速度,所有的智能运载体车辆共享同一个指令速度生成策略,且所述指令速度生成策略如下:给定智能运载体在过去n

次观测值的车辆平均速度为:其中:v
i
表示第i次的测量速度;智能运载体捕获前方车辆的速度并进行估计,所估计目标速度为:
其中:v
avg
+v
catch
表示目标车辆速度的上界,v
catch
表示后车的超车速度,g
l
和g
u
分别表示下界和上界的调节阈值;当前智能运载体在j+1时刻的指令速度为:其中:参数参数参数为j时刻的指令速度策略,v
jtgt
为j时刻的目标速度,为j时刻的前车当前车速,δx
s
表示安全行驶距离,δx为当前智能运载体与前车之间的距离;智能运载体在t+1时刻的指令速度与由策略进行抽样得到的动作a
t
之间存在相关关系。6.如权利要求5所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述智能运载体分为仅能够由车辆自身控制加速度的速度响应型智能运载体和能够被车辆外部的设备控制车辆加速度的加速度响应型智能运载体;对于速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的最终速度,对于加速度响应型智能运载体,直接通过由策略进行抽样得到的动作a
t
控制车辆的加速度。7.如权利要求5所述的基于深度强化学习的混合交通流控制方法,其特征在于,近似解v
θ
(s
t
)由带有注意力机制的lstm网络求解得到;给定t时刻智能运载体的状态向量为p
t
,则所述马尔可夫决策过程系统状态s
t
计算方式如下:s
t
=relu(w
p
p
t
+b
s
),其中relu为激活函数,w
p
为lstm网络的权重参数,b
s
为偏置;基于所得系统状态s
t
,lstm网络进行的后续计算如下,f
t
=sigmoid(w
fs
st+w
fh
h
t-1
+b
f
),i
t
=sigmoid(w
is
s
t
+w
ih
h
t-1
+b
i
),o
t
=sigmoid(w
os
s
t
+w
oh
h
t-1
+b
o
),c
t
=o
t
c
t-1
+i
t
tanh(w
cs
s
t
+w
ch
h
t-1
+b
c
),h
t
=o
t
tanh(c
t
),其中,sigmoid、tanh都是激活函数,w
fs
,w
fh
,w
is
,w
ih
,w
os
,w
oh
,w
cs
,w
ch
是lstm的权重参数,b
f
,b
i
,b
o
,b
c
是偏置参数,h
t-1
,c
t-1
为前一时刻隐藏状态,h
t
,c
t
是当前时刻隐藏状态,f
t
,i
t
,o
t
分别代表遗忘门、输入门和输出门的结果;各层隐藏状态h
t
的堆叠构成lstm网络的输出lstm
out
;基于所得的网络输出lstm
out
,使用注意力机制模块生成v
θ
(s
t
);其中,所述注意力机制模块的注意力分值计算方式如下,其中w
att
,b
att
,u
att
均为注意力参数;所述注意力机制模块的输出为:
最终,所述v
θ
(s
t
)通过一个全连接层获得:v
θ
(s
t
)=w
a
attention
out
+b
a
,其中,w
a
为全连接层的权重参数,b
a
为全连接层的偏置参数,m表示注意力总头数。8.如权利要求1所述的基于深度强化学习的混合交通流控制方法,其特征在于,所述感知节点包含路侧摄像机、门架、线圈、毫米波雷达。9.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能实现如权利要求1~8任一所述的基于深度强化学习的混合交通流控制方法。10.一种基于深度强化学习的道路交通流控制设备,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1~8任一所述的基于深度强化学习的混合交通流控制方法。

技术总结


本发明公开了一种基于深度强化学习的混合交通流控制方法、介质及设备。本发明视区域路网交通流被控对象,为被控区域路网建立高精度数字孪生空间,通过感知节点对交通流进行采集并进行统计处理并映射至所建立数字孪生空间,进而设计多智能体深度强化学习算法,实现该区域路网交通流的动态调节并进行评估。本发明所设计多智能体深度强化学习算法,采用多表演者-评论家框架,融合重要性采样机制、长短记忆网络和注意力机制,以道路通行率为优化目标,通过策略迭代方法生成近似最优策略,结合车速控制算法生成多节点限速指令,对区域路网交通流进行调节。本发明方法的应用,能够有效提升区域路网交通流量,对于拥堵治理具有重要意义。意义。意义。


技术研发人员:

苏杰 张玉杰 刘尧 李炎 金忠富 罗曦 蒋峻涛

受保护的技术使用者:

浙江省交通投资集团有限公司智慧交通研究分公司

技术研发日:

2022.05.25

技术公布日:

2022/9/23


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-39677-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-15 14:31:52

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论