(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211198216.4
(22)申请日 2022.09.29
(71)申请人 电子科技大 学
地址 611731 四川省成 都市高新区 (西区)
西源大道 2006号
(72)发明人 李福生 吴泽桂
(74)专利代理 机构 电子科技大 学专利中心
51203
专利代理师 甘茂
(51)Int.Cl.
G06F 9/50(2006.01)
G06N 20/00(2019.01)
G05D 1/00(2006.01)
(54)发明名称
一种面向集群无人机决策的多智能体强化
学习加速方法
(57)摘要
本发明属于计算机领域, 具体提供一种面向
集群无人机决策的多智能体强化学习加速方法
能适用于应用集中式学习、 分布式执行框架的多
智能体强化学习算法加速。 本发明在多 块ZYNQ和
一块主CPU组成的异构计算平台上完成多智能体
强化学习算法的训练, 其中, 主CPU 运行集群无人
机虚拟仿真环境, 在训练模式中各ZYNQ端FPGA运
行动作网络、 评价网络与目标动作网络、 目标评
价网络, 通过ZYNQ端CPU与主CP U集群无人机虚拟
仿真环境交互, 完成训练并更新网络参数, 完成
训练后可直接将 ZYNQ部署于 无人机上; 本发明能
够根据智能体的数量灵活配置ZYNQ的数量, 实现
所有智能体并行计算, 极大加速了训练过程, 且
设计流程简单灵活。
权利要求书1页 说明书4页 附图4页
CN 115454646 A
2022.12.09
CN 115454646 A
1.一种面向集群无人机决策的多智能体强化学习加速方法, 基于主CPU与N块ZYNQ组成
的异构计算平台进行, 其中, ZYNQ包括: 子CPU、 FPGA、 DD R与SD卡, 子CPU与主CPU通过总线进
行通讯; 所述多智能体强化学习加速方法包括: 训练阶段与推理部署阶段;
所述训练阶段包括以下步骤:
步骤1‑1、 每块ZYNQ初始化DDR内存 空间: 在DDR中固定位置存放评价网络、 动作网络、 目
标评价网络与目标动作网络的网络参数与经验 池数据;
步骤2‑2、 主CPU运行集群无人机虚拟仿真环境, 将初始无人机观测状态S=(s1,s2,...,
sn,...,sN)发送至各个ZYNQ; 在ZYNQ端, 子CPU将对应的个体无人机观测状态sn输入至FPGA
作为动作网络的输入, FPGA从DDR 中获取动作网络参数进 行前向计算、 并返回个体无人机动
作值An至子CPU, 再传送至主CPU;
步骤1‑3、 主CPU接收到所有ZYNQ传输的个体无人机动作值后, 在集群无人机虚拟仿真
环境中执行所有无人机动作, 获得各个无人机的奖励值R与下一时刻所有无人机的观测状
态S′, 并将观测状态S ′与奖励值R 发送至各个ZYN Q;
步骤1‑4、 在ZYNQ端, 子CPU将所有无人机当前观测状态S、 无人机动作值An、 接收到的所
有无人机下一观测状态S ′及奖励值R以<S,An,S′,R>格式存入DDR的经验池中, 之后将观测
状态更新 为下一观测状态S ′;
步骤1‑5、 在ZYNQ端, 当经验池大于预设阈值后, 子CPU抽取batch规模的观测状态S ′, 并
通过AXI总线传输至BRAM中, FPGA从DDR中获取目标动作网络的网络参数、 从BRAM中获取s ′n
作为目标动作网络的输入进行前向运算, 获得无人机 目标动作A ′n; FPGA从DDR中获取目标
评价网络的网络参数、 从BRAM中获取S ′, 将S′与A′n合并作为目标评价网络输入进行前向计
算, 将输出Qn传输至子CPU中; 子CPU从经验池抽取batch规模的奖励值R数据、 并计算TDn: TDn
=R+γ·Qn; 子CPU从经验池抽取batch规模的S数据与An数据、 并与TDn一起通过AXI总线传
入FPGA, FPGA将S数据存入BRAM中, 同时将S数据与An数据作为评价网络输入、 TDn作为评价网
络的训练标签对评价网络进行反向传播训练, 更新评价网络的网络参数ωc;
步骤1‑6、 完成评价网络训练后, FPGA 从DDR中获取动作网络的网络参数, 从BRAM中获取
sn作为动作网络输入进行前向网络计算, 获得新的动作值An(不再从DDR的经验库中获取);
FPGA从DDR中获取评价网络的网络参数, 将BRAM中的S与新的动作值An作为评价网络输入进
行前向计算, 获得评价值作为动作网络的训练标签, 利用梯度上升 法对动作网络进 行训练,
更新动作网络的网络参数ωa;
步骤1‑7、 达到训练次数后, 将评价网络的网络参数ωc赋值给目标评价网络, 将动作网
络的网络参数ωa赋值给目标动作网络;
步骤1‑8、 达到训练总次数后, 将动作网络的网络参数存 储至SD卡中, 完成训练;
所述推理部署阶段包括以下步骤:
步骤2‑1、 将各个ZYNQ直接搭载至相对应的无人机上, 子CPU从SD卡中读取动作网络的
网络参数, 将网络参数通过AXI总线传输至到BRAM上; 无人机上子CPU获取真实的环境状态
并输入至FPGA作为动作网络的输入, FPGA根据BRAM中网络参数进行前向计算, 获得无人
机动作值
并返回至 子CPU, 子CPU将动作值
发送至飞控系统中进行 执行, 完成推理部署。权 利 要 求 书 1/1 页
2
CN 115454646 A
2一种面向集群无人机决策的多智能体强化学习加速方 法
技术领域
[0001]本发明属于计算机领域, 涉及集群无人机 的决策控制技术, 具体提供一种面向集
群无人机决策的多智能体强化学习加速方法。
背景技术
[0002]多智能体强化学习是将强化学习和多智能体系统进行结合的一种算法, 通过端到
端的学习 方式, 协调多个智能体的活动, 该算法广泛应用于群体机器人、 无人机集群、 物流
调度、 工厂排产、 交通控制、 电竞游戏、 军事对抗等领域。 如文献 “Ryan Lowe,Yi Wu,Aviv
Tamar,Jean Harb,Pieter Abbeel,Igor Mordatch:Multi ‑Agent Actor‑Critic for
Mixed Cooperative ‑Competitive Environments.NIPS 2017:6379 ‑6390”中公开了MADDPG
(Multi‑Agent Deep Determini stic Policy Gradient)算法, 能够实现多个智能体的合作
和竞争; 又如文献 “冯旸赫,程光权,施伟,等.基于深度强化学习的多机协同空战规划方法
及系统[J].自动化学报,2021,47(7):14. ”、“杜云,贾慧敏,邵士凯,等.面向多目标侦 察任
务的无人机航线规划[J].控制与决策,2021(036 ‑005).”等将多智能体强化学习应用于集
群无人机的决策控制上, 但都没有真正进行部署。 越来越多的研究被投入到集群无人机的
决策控制中, 智能体数量 规模也不断扩大。
[0003]在类似于MADDPG的各种多智能体强化学习算法中, 大多采用集中式训练, 分布式
执行的架构, 每一个智能体都有对应的agent网络、 Critic网络等网络, 每一个智能体都需
要和环境做交互、 和其他智能体做通讯; 智能体越多, 需要训练的网络数量也会随之增多。
目前业界普遍使用CPU+GPU的硬件架构 完成多智能体强化学习的训练, 但在这类硬件中, 各
个智能体的网络大多 是串行运行的, 随着智能体规模的扩大, 训练 时间也指数上升, 而在部
署阶段, 该架构无法满足无 人机集群控制等对实时性和功耗要求较高的任务。
[0004]FPGA芯片内集成了大量的数字电路和存储器, 可以为专用的算法设计专门的电
路, 以此来加快计算效率, 并且具有可重复配置的优势, 可以适应不断迭代的算法。 其中,
Xilinx推出的具有CPU和FPGA两种异构计算单元的ZYNQ系列处理器, 非常适合用于协同决
策的多智能体强化学习算法在端侧进行 快速高效的实现。
发明内容
[0005]本发明的目的在于针对上述现有的问题提出一种面向集群无人机决策的多智能
体强化学习加速方法, 能够在多块ZYNQ和一块主CPU组成的异构计算平 台上完成多智能体
强化学习算法的训练, 而后直接将多块ZYNQ分别部署在各自对应的无人机上, 该系统构架
具有灵活、 简单、 易配置的优点。
[0006]为实现上述目的, 本发明采用的技 术方案为:
[0007]一种面向集群无人机决策的多智能体强化学习加速方法, 基于主CPU与N块ZYNQ 组
成的异构计算平台进行, 其中, ZYNQ包括: 子CPU、 FPGA、 DDR与SD卡, 子CPU与主CPU通过总线
进行通讯; 所述多智能体强化学习加速方法包括: 训练阶段与推理部署阶段;说 明 书 1/4 页
3
CN 115454646 A
3
专利 一种面向集群无人机决策的多智能体强化学习加速方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:13上传分享