基于深度强化学习的智能体在智慧消防中的应用研究

2020-12-21 14:39:38Cismag浏览0次0

引用本文：牛浩玉，汤文兵，田锦.基于深度强化学习的智能体在智慧消防中的应用研究[J].通信技术,2019, 52 ( 10) : 2567-2572.

摘　要

消防直接关系到人民的生命财产安全。针对在火灾发生时因救援环境复杂导致被困人员搜救困难的问题，提出了一种基于深度强化学习的智能体在消防场景中的目标识别和路径规划算法。通过将强化学习算法与卷积神经网络相融合，赋予智能体一定的自主判断、规划分析和目标识别能力。以公共环境中的移动智能体开发应用为背景，针对消防中存在的问题，对智能体在火灾发生前期实现可靠的路径规划和目标识别问题进行深入的应用研究。

关键词：智慧消防；深度强化学习；智能体；路径规划；目标识别

内容目录：

0　引　言

1　系统总体结构图

2　深度强化学习

2.1　强化学习

2.2　深度强化学习

2.3　智能体在消防中的路径规划算法

2.3.1　状态空间设计

2.3.2　动作空间设计

2.3.3　路径规划算法参数的设计

3　实验与分析

3.1　仿真与实验

3.2　结果分析

4　结　语

０

引　言

随着人工智能技术的深入研究，人工智能赋能消防的研究进入了一个崭新的阶段。面对场景复杂的公共场所，传统的消防从火源的发现到火灾的处置，再到被困人员的搜救，都是由人来完成的。这可能造成被困人员位置不明确、搜救耗时较长等一系列问题。因此，对消防过程的自主性和未知空间的探索提出了新的挑战E。在公共场所发生火灾突发事件时，智能体如何快速识别被困人员，并根据过往经验为消防救援人员提供一个合理的救援路线，是公共安全领域中急需解决的问题。

面对上述消防难题，构建图像识别与路径规划于一体的智能体，是解决此类基于视觉感知控制任务的关键。在图像识别方法中，卷积神经网络有着出色的表现。卷积神经网络通过卷积层对输入的视频图像数据进行特征提取，输出的特征图会传递到池化层进行特征选择和信息过滤。而在为救援人员提供合理的救援路线方法中，路径规划算法是核心，直接影响救援结果。传统运动规划方法是智能体依据人们预先设定的规则实现路径规划，而当遇到动态未知环境时，此类方法由于灵活性不强而难以适应复杂环境。

因此，使用深度强化学习方法对未知环境进行路径规划是本文研究的重点。本文将卷积神经网络与强化学习算法结合应用于消防中，用来实现被困人员的查找和为救援人员提供合理的救援路线，提高消防人员在救援过程中的效率, 且灵活性更强。因此，将深度强化学习应用于消防救援是解决消防难题的一个有效途径。

１

系统总体结构图

基于智能体系统在消防中的应用场景，设计了智能体的系统总体结构，如图1所示。根据总体结构设计的智能体系统主要有目标识别、自主路径规划以及与外界的信息交互3个部分。此智能体结构通过利用摄像头捕捉视频图像与环境进行交互，从而采集不同的外部环境数据。通过随机选择并执行动作，然后基于环境状态变化给予的反馈以及当前环境状态选择并执行下一个动作，通过深度强化学习算法不断与环境交互获取知识、增长经验叫当智能体得知有火灾发生时，立即通过摄像头进行被困人员的寻找。当发现被困人员时，立即将其所在位置信息及根据过去学习到的经验将合理的救援路线一并传达给外部救援人员。

图1的系统结构就是利用智能体系统进行数据的采集和分析，利用程序及算法对智能体进行路径规划和被困人员的识别，通过自主学习进行决策，传达各种信息指令操作，再重新接受新的环境信息进行反馈，循环反复此过程回。

图1系统总体结构

２

深度强化学习

2.1　强化学习

强化学习的学习过程是智能体与环境进行交互并从环境中获得反馈信息的学习过程。作为一种交互式的学习方法，强化学习的主要特点是试错和延迟回报。图2是应用于消防背景下的强化学习的基本原理。

强化学习任务通常用马尔科夫决策过程来描述：智能体处于环境E中，状态空间为X,其中每个状态是智能体感知到的环境的描述；智能体能采取的动作构成了动作空间&若某个动作作用在当前状态羽上，则潜在的转移函数戸将使得环境从当前状态按某种概率转移到另一个状态；在转移到另一个状态的同时，环境会根据潜在的奖赏函数R反馈给智能体一个奖赏。综上所述, 强化学习任务对应四元组。

图2　消防环境下的强化学习

强化学习的目标是给定一个马尔科夫决策过程寻找最优策略。这里的最优是指得到的累积奖赏最大。所谓策略是指状态到动作的映射，策略常用符号兀表示。强化学习的策略往往是随机策略，好处是可以将探索耦合到采样过程。当定义一个策略时，即可计算累积奖赏：

ｙ是折现系数，用来计算累积回报，表示对未来状态的重视程度。当智能体采用策略时，累积回报服从一个分布，累积回报在状态S处的期望值定义为状态-动作值函数:

相应地，状态-行为值函数为：

2.2　深度强化学习

消防中移动智能体对被困人员的识别可用卷积神经网络实现。但是，对于智能体的路径规划，经典的强化学习方法往往无法解决状态和动作空间高维度的问题。在机器学习方法中，深度神经网络具有表达复杂环境的能力，而经典的强化学习算法是解决复杂决策问题的有效手段.

因此，将两者结合起来能够为智能体在复杂环境中的感知决策问题提供解决思路。DQN是一种经典的深度强化学习方法。与经典的强化学习算法不同，DQN利用深度神经网络对值函数进行逼近时，值函数的更新不更新取决于参数。（如图3所示）。DQN利用卷积神经网络框架拟合强化学习中的行为值函数，可以使智能体实现真正自主学习一种甚至多种策略。

训练神经网络时，假设训练数据独立同分布，但是通过强化学习采集的数据之间存在关联性，如果利用这些数据进行顺序训练，神经网络会具有不稳定性，因此DQN使用经验回放打破数据间关联。在强化学习过程中，智能体将数据存储到一个数据库中，再利用均匀随机采样的方法从数据库中抽取数据，然后利用抽取的数据训练神经网络。

图3行为值函数逼近网络

DQN使用两个结构相同但是参数不同的网络。第一个网络是用来计算智能体动作的值，并选出最大值的动作，计算当前动作值如式（4）所示；第二个网络用来辅助训练目标值，称为目标网络，计算如式（5）所示。

模型在计算智能体动作的Q网络上通过其最大 Q值选择动作再去获取该动作在目标网络上的值。这样计算智能体动作的网络负责选择相应的行为，而这个被选定的的值则由目标网络生成。

2.3　智能体在消防中的路径规划算法

本文设计的基于DQN算法的移动智能体在消防中的运动规划路径算法，如图4所示。模型中，将CNN与网络结合在一起，利用CNN提取消防场景中的视频图像特征，然后通过网络输出,即智能体采取动作所获得的Q值。

图4智能体在消防场景中的路径规划算法

智能体会根据当前的场景图像的状态采取智能体要做的动作,进而根据激励函数获得一个奖励，且达到下一个状态。智能体由获得的奖励判断该时刻选择动作的好坏，并更新值函数的网络参数；再有下一个状态得到的奖励对自身所做动作的好坏做出判断；循环获得奖励值，直至训练结束，得到一个较好的值函数网络。

本文设计的深度强化学习算法本质是智能体在消防应用场景下的环境感知得到的状态s,通过 DQN选择动作且得到奖励，从而对智能体的运动路径规划进行优化。因此智能体状态的设计、动作的选择以及算法参数的设计对于本文提出的运动规划方法起到了至关重要的作用。

2.3.1　状态空间设计

状态空间是智能体在自身所处环境中所能获取的感知信息的集合，在深度强化学习中为。网络提供学习所需的信息数据。本文中基于公共消防应用场景中的智能体，通过摄像头获取周围信息，因此只将智能体周围的附近区域作为状态输入。因为摄像头获取的原始图像尺寸很大，计算机在进行处理时需要大量的计算资源，所以需要对原始图像做缩放处理，处理后输入图像的尺寸为100x100像素。选取摄像头获取的距离当前时刻最近的3帧场景图像做灰度化处理，并输入到卷积神经网络。最终输入的智能体所处的环境状态的图像尺寸为 100x 100x3,表述为：

其中S表示状态的集合，表示连续的距离当前最近的3个时刻，s,是当前时刻输入的状态图像。

2.3.2　动作空间设计

动作空间是智能体根据自身状态采取的动作集合。本文中智能体的行为策略选择的是e-greedy策略，公式为：

策略基于一个概率来对探索和利用进行折中：选取使得动作值函数最大的概率为,而其他动作的概率为等概率，平衡了利用和探索，其中选取动作值函数最大的部分为利用部分，其他非最优动作仍有概率为探索部分。智能体根据设定的参数概率选取动作模式。

虽然深度强化学习算法模型适用于智能体采取离散动作，而在实际场景中智能体往往需要连续的动作做消防救援中的路径规划，但只要相邻的动作间时间间隔很短，离散动作可近似为连续动作。本文设计的智能体采取前、后、左、右4个离散动作, 用式(8)表示：

其中Ａ为智能体所能采取的运动的集合，、分别表示智能体匀速向前、后、左、右 4个方向移动。

2.3.3　路径规划算法参数的设计

深度强化学习的参数设计对于模型的训练结果会产生很大影响。本文基于深度强化学习的智能体在消防中的路径规划算法的参数如表1所示。其中，学习率是指更新网络权重的快慢程度。学习率高，表示算法模型学习速度快，但可能会使网络学习过程不稳定；而学习率太低，会使网络经过很长时间的学习才能达到收敛状态。

实验表明，当学习率为0.01时，网络能很快收敛并达到最优。折现系数表示智能体对下一个状态的重视程度。折现系数越小，表示智能体更关注于当前状态而很少考虑下_ 状态；折现系数越大，表示对下一状态的重视程度更高。本实验中的智能体需要完成一系列连续动作, 因此折现系数为0.9时最合适。智能体在强化学习时要想获得累积奖赏的最大化，则必须在探索与利用之间达到较好的折中。

本文的基于一个概率对探索和利用进行折中：每次尝试以0.2的概率进行探索，以均匀概率随机选择一个动作，以0.8 的概率进行利用，即选择当前能获得最大奖赏的动作。神经网络隐藏层的神经单元数对数据的训练结果有很大影响。神经单元数太多会使计算难度增加, 太少则很难全面提取数据的特征值。本文将神经单元数调为100,能做到很好的折中。记忆池用来存储样本数据。

在智能体学习过程中，网络会随机从记忆池中选取一定量的数据进行训练，本文选择记忆池大小为200 000。智能体在每一次学习过程中的回合更新的步数都不同，本文将初始化的学习步数定为20。

表1深度强化学习算法中的各个参数取值

３

实验与分析

3.1　仿真与实验

为了选择最优的价值网络模型，本文建立了基于公共消防场景的模拟仿真环境。仿真环境和智能体的深度强化学习模型均由python实现，其中 DQN算法基于Tensorflow、Keras以及gym平台实现。

本文设计了一个大小为10 mx 10 m的公共消防场景，如图5 (a)所示。左上角圆圈为安全出口，也是每次智能体与环境交互进行经验学习的初始位置。四周最外围的实线方框代表墙壁，灰色区域为障碍物区域，中心的颜色区域为目标位置，初始化的奖赏为7?=l.lo图中有几块区域虽然无明显障碍物，但是也存在智能体不能通行的情况，因此初始化的奖赏为R=-l,其他的移动智能体可随意运动的区域的初始化奖赏为0。

本文将一个l０mxl０m的消防场景虚拟成100 个小区域，每个小区域为1。智能体在每个区域中有前、后、左、右4个可移动方向。本文设定智能体的速度为lm/s,状态每秒迭代1次，每次迭代智能体的平均移动距离为1 mo当智能体得知有火情发生时，立即进入被困人员寻找过程。

智能体每到达一个区域就立即扫描左、前、右3个方向，通过卷积神经网络计算是否有目标存在。若发现被困人员，立即将人员位置信息以及从安全通道口到被困人员位置的最优路线一并传达给消防救援人员；若目标不存在，则继续寻找。

图5 (b)是智能体从安全通道出口到某一位置的深度强化学习后获得的路线。当火灾发生时，智能体通过摄像头在累积奖赏最大的阴影区域寻找到被困人员并立即上报情况，并根据过往学习到的经验为外部消防救援人员提供合理的救援路线，为救援节省时间，最大程度保证区域内人员的生命安全。

(a)初始的模拟环境

b)智能体学习后的规划路径

图5智能体路径规划

3.2　结果分析

基于上述消防场景的实验模拟，本实验对智能体进行了多次回合迭代更新。智能体与环境交互时, 环境对智能体的奖赏从先前的负向奖励逐渐趋向于正向奖励，如图6 (a)所示，表明智能体在与环境规划中，在路径规划上获得了较好的学习结果。在每次回合更新中，随着更新的次数增加，智能体到达某处的更新步数逐渐收敛于一个稳定的状态，如图6 (b)所示。

这是智能体从消防场景中的安全出口处到某一区域的结果，通过不断变换目标位置智能体即可学习到达各个位置的路线。这样当智能体在规定区域的任何位置扫描到火源或火灾中的被困人员时，即可及时将之前学习的最合理的规划路线传达给外部救援人员，为救援人员提供救援时间短、路线合理的救援方案。

综上所述，通过本文提出的基于深度强化学习的智能体在消防中的目标识别与路线规划模型算法，智能体能够学习从安全出口到不同位置的最优策略，通过人工智能的方式最大限度地节省了救援人员的救援时间，能够有效提高消防救援的效率。

４

结　语

本文通过分析传统消防在人工智能背景下的应用需求，提出了一种基于深度强化学习的智能体在消防场景下的智能决策方法。通过介绍深度强化学习原理和智能体模型的过程设计，解决了消防中存在的部分问题。通过仿真实验的结果表明，用于消防救援的智能体随着训练迭代次数的增加不断积累学习经验，从而能够以最优方式从起始位置运动到目标位置，有效为救援人员提供合理的救援路线，证实了方法的可行性。

但是，本文的方法只适用在火灾发生前期烟雾较少的情况下，火势较大时，因为环境中存在大量烟雾，会导致移动智能体无法对现场环境进行正确分析和判别凹。因此，后续将在救援场景更为复杂的情况下，在算法的实用化方面展开更深入的研究。

作者简介 >>>

牛浩玉，硕士，主要研究方向为智慧消防、机器视觉；

汤文兵，学士，高级工程师，主要研究方向为计算机控制；

田锦，博士，教授,主要研究方向为智能交通、车载网、智慧消防。