专利 一种空中博弈仿真方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211176772.1 (22)申请日 2022.09.26 (71)申请人北京鼎成智造科技有限公司地址 100193 北京市海淀区西北旺东路10 号院东区15号楼 2层01A201 (72)发明人陈敏杰　吴斌星　 (74)专利代理机构北京丰浩知识产权代理事务所(普通合伙) 11781 专利代理师李奉瑾 (51)Int.Cl. G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 20/00(2019.01) (54)发明名称一种空中博弈仿真方法及装置 (57)摘要本发明公开了一种空中博弈仿真方法及装置，所述方法包括：获取配置参数，利用仿真模块生成空中博弈仿真环境；构建第一智能算法模型；所述第一智能算法模型用于生成控制第一方空中力量的指令；利用所述空中博弈仿真环境，对所述第一智能算法模型进行训练，得到第二智能算法模型；对所述第二智能算法模型进行评估，得到评估结果。本发明通过引入深度强化学习算法和混合现实技术，实现操作员可以直接控制虚拟世界的实体与智能体对抗，使得在智能算法训练阶段，能够学习多种现实的随机不确定场景，增强智能体的泛化性，在算法模型评估时，通过混合现实技术使操作员直接与智能模型控制的智能体进行对抗，验证智能模型训练的效果。权利要求书3页说明书12页附图2页 CN 115470710 A 2022.12.13 CN 115470710 A 1.一种空中博弈仿真方法，其特征在于，所述方法包括： S1、获取配置参数，利用仿真模块生成空中博弈仿真环境； S2、构建第一智能算法模型；所述第一智能算法模型用于生成控制第一方空中力量的指令； S3、基于所述空中博弈仿真环境，对所述第一智能算法模型进行训练，得到第二智能算法模型； S4、对所述第二智能算法模型进行评估，得到评估结果。 2.根据权利要求1所述的空中博弈仿真方法，其特征在于，所述基于所述空中博弈仿真环境，对所述第一智能算法模型进行训练，得到第二智能算法模型，包括： S31、基于所述空中博弈仿真环境，利用所述仿真模块生成第一态势信息；所述态势信息包括第一方空中力量信息、第二方空中力量信息、环境数据信息；所述第一方空中力量信息与所述第二方空中力量信息为对抗双方； S32、利用所述第一智能算法模型，对所述第一态势信息进行处理，得到第一指令；所述第一指令用于控制第一方空中力量； S33、利用地图模块和混合现实模块，向操作员展示所述第一态势信息，得到第一交互信息； S34、利用预设的规则算法模型，对所述第一交互信息进行处理，得到第二指令；所述第二指令用于控制第二方空中力量； S35、根据所述第一指令和所述第二指令，仿真模块进行步长推进，生成第二态势信息； S36、利用预设的训练判定模型，对所述第二态势信息进行判断，得到第一判断结果；所述预设的训练判定模型用于判定第一智能算法模型是否达到预设的效果； S37、当所述第一判断结果为否时，将所述第二态势信息更改为第一态势信息，触发执行利用所述第一智能算法模型，对所述第一态势信息进行处理，得到第一指令；所述第一指令用于控制第一方空中力量；当所述第一判断结果为是时，停止训练，得到第二智能算法模型。 3.根据权利要求2所述的空中博弈仿真方法，其特征在于，所述利用预设的训练判定模型，对所述第二态势信息进行判断，得到第一判断结果，包括：根据所述第二态势信息，利用预设的训练判定模型中奖励函数、终止函数进行计算，得到所述第一智能算法模型的奖励值；判断所述奖励值是否达到预设奖励阈值，得到第一判断结果。 4.根据权利要求1所述的空中博弈仿真方法，其特征在于，所述对所述第二智能算法模型进行评估，得到评估结果，包括： S41、对所述仿真模块进行配置，生成第三态势信息；所述态势信息包括第一方空中力量信息、第二方空中力量信息、环境数据信息； S42、利用所述第二智能算法模型，对所述第三态势信息进行处理，得到第三指令； S43、利用地图模块和混合现实模块，向操作员展示所述第三态势信息，得到第二交互信息； S44、利用预设的规则算法模型，对所述第二交互信息进行处理，得到第四指令； S45、根据所述第三指令和所述第四指令，所述仿真模块进行步长推进，生成第四态势权　利　要　求　书 1/3 页 2 CN 115470710 A 2信息； S46、对所述第四态势信息进行判断，得到第二判断结果； S47、如果所述第二判断结果为否，对第一智能算法模型的进行参数优化，触发执行基于所述空中博弈仿真环境，对所述第一智能算法模型进行训练，得到第二智能算法模型；如果所述第二判断结果为是，停止评估，得到评估结果。 5.根据权利要求4所述的空中博弈仿真方法，其特征在于，所述对所述第四态势信息进行判断，得到第二判断结果，包括：对所述第四态势信息进行处理，判断在预设的推演时间内，第一方空中力量是否将第二方空中力量击毁，得到第二判断结果。 6.根据权利要求2所述的空中博弈仿真方法，其特征在于，所述利用所述第一智能算法模型，对所述第一态势信息进行处理，得到第一指令，包括：对所述第一态势信息进行解析，得到解析数据；对所述解析数据进行特征提取，得到特征数据；对所述特征数据进行编码，得到特征编码数据；将所述特征编码数据输入预设的神经网络，输出动作编码数据；对所述动作编码数据进行解码，得到第一指令。 7.根据权利要求2所述的空中博弈仿真方法，其特征在于，所述利用地图模块和混合现实模块，向操作员展示所述第一态势信息，得到第一交互信息，包括：从混合现实模块中获取操作员的视野方位；利用地图模块，对所述第一态势信息和所述操作员的视野方位进行处理，生成视野战场环境信息；利用混合现实模块，将所述视野战场环境信息展示给操作员，得到第一交互信息。 8.一种空中博弈仿真装置，其特征在于，所述装置包括：仿真模块、算法模块、混合现实模块、地图模块；所述仿真模块用于获取的配置参数，和/或，指令信息，生成空中博弈仿真环境和态势信息；所述算法模块用于对态势信息和从混合现实模块接收的操作员交互信息进行处理，输出指令；所述算法模块包括智能算法模型、训练判定模型、规则算法模型；所述地图模块用于根据操作员的视野方位，将获取的空中博弈仿真环境和态势信息生成视野场景信息；所述混合现实模块用于向操作员展示所述视野场景信息，捕获操作员的交互信息；所述混合现实模块包括头戴式显示器、手柄、定位器。 9.根据权利要求8所述的空中博弈仿真装置，其特征在于，所述混合现实模块用于向操作员展示所述视野场景信息，得到操作员的交互信息，包括：所述混合现实模块利用定位器将虚拟世界与现实世界进行坐标定位；所述混合现实模块从所述地图模块获取所述视野场景信息；所述混合现实模块利用头戴式显示器设备，把所述视野场景信息展示给操作员；所述混合现实模块捕获操作员的操控动作，得到操作员的交互信息。 10.根据权利要求9所述的空中博弈仿真装置，其特征在于，所述混捕获操作员的操控权　利　要　求　书 2/3 页 3 CN 115470710 A 3

专利 一种空中博弈仿真方法及装置

专利一种空中博弈仿真方法及装置