(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211176772.1
(22)申请日 2022.09.26
(71)申请人 北京鼎成智造科技有限公司
地址 100193 北京市海淀区西北旺东路10
号院东区15号楼 2层01A201
(72)发明人 陈敏杰 吴斌星
(74)专利代理 机构 北京丰浩知识产权代理事务
所(普通合伙) 11781
专利代理师 李奉瑾
(51)Int.Cl.
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种空中博弈仿真方法及装置
(57)摘要
本发明公开了一种空中博弈仿真方法及装
置, 所述方法包括: 获取配置参数, 利用仿真模块
生成空中博弈仿真环境; 构建第一智能算法模
型; 所述第一智能算法模型用于生成控制第一方
空中力量的指令; 利用所述空中博弈仿真环境,
对所述第一智能算法模型进行训练, 得到第二智
能算法模型; 对所述第二智能算法模型进行评
估, 得到评估结果。 本发明通过引入深度强化学
习算法和混合现实技术, 实现操作员可以直接控
制虚拟世界的实体与智能体对抗, 使得在智能算
法训练阶段, 能够学习多种现实的随机不确定场
景, 增强智能体的泛化性, 在算法模型评估时, 通
过混合现实技术使操作员直接与智能模型控制
的智能体进行对抗, 验证智能模型训练的效果。
权利要求书3页 说明书12页 附图2页
CN 115470710 A
2022.12.13
CN 115470710 A
1.一种空中博 弈仿真方法, 其特 征在于, 所述方法包括:
S1、 获取配置参数, 利用仿真模块 生成空中博 弈仿真环境;
S2、 构建第一智能算法模型; 所述第一智能算法模型用于生成控制第一方空中力量的
指令;
S3、 基于所述空中博弈仿真环境, 对所述第一智能算法模型进行训练, 得到第二智能算
法模型;
S4、 对所述第二智能算法模型进行评估, 得到 评估结果。
2.根据权利要求1所述的空中博弈仿真方法, 其特征在于, 所述基于所述空中博弈仿真
环境, 对所述第一智能算法模型进行训练, 得到第二智能算法模型, 包括:
S31、 基于所述空中博弈仿真环境, 利用所述仿真模块生成第一态势信息; 所述态势信
息包括第一方 空中力量信息、 第二方 空中力量信息、 环境数据信息; 所述第一方空中力量信
息与所述第二方空中力量信息为对抗双方;
S32、 利用所述第一智能算法模型, 对所述第一态势信息进行处理, 得到第一指令; 所述
第一指令用于控制第一方空中力量;
S33、 利用地图模块和混合现实模块, 向操作员展示所述第一态势信息, 得到第一交互
信息;
S34、 利用预设的规则算法模型, 对所述第一交互信息进行处理, 得到第二指令; 所述第
二指令用于控制第二方空中力量;
S35、 根据所述第一指令和所述第二指令, 仿真模块进行步长推进, 生成第二态 势信息;
S36、 利用预设的训练判定模型, 对所述第二态势信息进行判断, 得到第一判断结果; 所
述预设的训练判定模型用于判定第一智能算法模型 是否达到预设的效果;
S37、 当所述第一判断结果为否时, 将所述第二态势信息更改为第一态势信息, 触发执
行利用所述第一智能算法模型, 对所述第一态势信息进 行处理, 得到第一指 令; 所述第一指
令用于控制第一方空中力量;
当所述第一判断结果 为是时, 停止训练, 得到第二智能算法模型。
3.根据权利要求2所述的空中博弈仿真方法, 其特征在于, 所述利用预设的训练判定模
型, 对所述第二态 势信息进行判断, 得到第一判断结果, 包括:
根据所述第二态势信 息, 利用预设的训练判定模型中奖励函数、 终止函数进行计算, 得
到所述第一智能算法模型的奖励值;
判断所述奖励值是否 达到预设奖励阈值, 得到第一判断结果。
4.根据权利要求1所述的空中博弈仿真方法, 其特征在于, 所述对所述第 二智能算法模
型进行评估, 得到 评估结果, 包括:
S41、 对所述仿真模块进行配置, 生成第三态势信息; 所述态势信息包括第一方空中力
量信息、 第二方空中力量信息、 环境数据信息;
S42、 利用所述第二智能算法模型, 对所述第三态 势信息进行处 理, 得到第三指令;
S43、 利用地图模块和混合现实模块, 向操作员展示所述第三态势信息, 得到第二交互
信息;
S44、 利用预设的规则算法模型, 对所述第二交 互信息进行处 理, 得到第四指令;
S45、 根据所述第三指令和所述第四指令, 所述仿真模块进行步长推进, 生成第四态势权 利 要 求 书 1/3 页
2
CN 115470710 A
2信息;
S46、 对所述第四态 势信息进行判断, 得到第二判断结果;
S47、 如果所述第二判断结果为否, 对第一智能算法模型的进行参数优化, 触发执行基
于所述空中博 弈仿真环境, 对所述第一智能算法模型进行训练, 得到第二智能算法模型;
如果所述第二判断结果 为是, 停止 评估, 得到 评估结果。
5.根据权利要求4所述的空中博弈仿真方法, 其特征在于, 所述对所述第四态势信 息进
行判断, 得到第二判断结果, 包括:
对所述第四态势信息进行处理, 判断在预设的推演时间内, 第一方空中力量是否将第
二方空中力量击毁, 得到第二判断结果。
6.根据权利要求2所述的空中博弈仿真方法, 其特征在于, 所述利用所述第 一智能算法
模型, 对所述第一态 势信息进行处 理, 得到第一指令, 包括:
对所述第一态 势信息进行解析, 得到解析 数据;
对所述解析数据进行 特征提取, 得到特 征数据;
对所述特 征数据进行编码, 得到特 征编码数据;
将所述特 征编码数据输入预设的神经网络, 输出动作编码数据;
对所述动作编码数据进行解码, 得到第一指令 。
7.根据权利要求2所述的空中博弈仿真方法, 其特征在于, 所述利用地图模块和混合现
实模块, 向操作员展示所述第一态 势信息, 得到第一交 互信息, 包括:
从混合现实模块中获取操作员的视野方位;
利用地图模块, 对所述第一态势信息和所述操作员的视野方位进行处理, 生成视野战
场环境信息;
利用混合现实模块, 将所述视野战场环境信息展示给操作员, 得到第一交 互信息。
8.一种空中博弈仿真装置, 其特征在于, 所述装置包括: 仿真模块、 算法模块、 混合现实
模块、 地图模块;
所述仿真模块用于获取的配置参数, 和/或, 指令信息, 生成空中博弈仿真环境和态势
信息;
所述算法模块用于对态势信 息和从混合现实模块接收的操作员交互信 息进行处理, 输
出指令; 所述 算法模块包括智能算法模型、 训练判定模型、 规则算法模型;
所述地图模块用于根据操作员的视野方位, 将 获取的空中博弈仿真环境和态势信 息生
成视野场景信息;
所述混合现实模块用于向操作员展示所述视野场景信息, 捕获操作员的交互信息; 所
述混合现实模块包括头戴 式显示器、 手柄、 定位器。
9.根据权利要求8所述的空中博弈仿真装置, 其特征在于, 所述混合现实模块用于向操
作员展示所述视野场景信息, 得到操作员的交 互信息, 包括:
所述混合现实模块利用定位器将虚拟世界与现实世界进行坐标定位;
所述混合现实模块从所述 地图模块获取 所述视野场景信息;
所述混合现实模块利用头戴 式显示器设备, 把所述视野场景信息展示给操作员;
所述混合现实模块捕获操作员的操控动作, 得到操作员的交 互信息。
10.根据权利要求9所述的空中博弈仿真装置, 其特征在于, 所述混捕获操作员的操控权 利 要 求 书 2/3 页
3
CN 115470710 A
3
专利 一种空中博弈仿真方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:11:38上传分享