国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211114004.3 (22)申请日 2022.09.14 (71)申请人 吉林建筑大学 地址 130118 吉林省长 春市新城大街5 088 号 (72)发明人 王旭 周诗佳 张宇 尤天舒 徐勇 富倩 孙伟 李力东 杜丽英 戴传祗 (74)专利代理 机构 重庆三航专利代理事务所 (特殊普通 合伙) 50307 专利代理师 万文会 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01)G06Q 10/04(2012.01) (54)发明名称 基于多Agent环境的深度强化学习算法、 设 备和存储介质 (57)摘要 本申请提供一种基于多Agent环 境的深度强 化学习算法、 设备和存储介质, 涉及深度强化学 习算法技术领域; 通过步骤S101、 利用Agent中的 目标网络, 基于初始状态信息和动作信息, 确定 时间差分; 步骤S102、 根据预设的遮盖率, 对初始 状态信息进行随机遮盖, 得到目标状态信息, 利 用Agent中的预测网络, 以及时间差分, 确定误差 值; 步骤S103: 基于误差值, 以及自适应修改参 数, 对Agent中的预测网络和目标网络各自对应 的加权值进行更新; 步骤S104: 重复步骤S102和 步骤S103预设次数, 确定目标加权值, 从而确定 目标深度强化学习模型。 具有保证了样本学习效 率, 并通过自适应修改参数对深度强化学习模型 中的Agent进行迭代更新, 以提高收敛速度的效 果。 权利要求书2页 说明书10页 附图8页 CN 115392438 A 2022.11.25 CN 115392438 A 1.一种基于多Agent环境的深度强化学习算法, 其特征在于, 应用于多Agent环境中的 深度强化学习模型, 所述深度强化学习算法包括: 步骤S101、 利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间 差分; 步骤S102、 根据预设的遮盖率, 对所述初始状态性信息进行随机遮盖, 得到目标状态信 息; 利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以及所 述时间差分, 确定误差值; 步骤S103: 基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标 网络各自对应的加权值进行 更新; 步骤S104: 重 复步骤S102和步骤S103至预设次数, 确定目标加权值, 根据所述目标加权 值确定目标深度强化学习模型。 2.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述目 标网络包括目标actor网络和目标critic网络; 所述利用所述Agent中的目标网络, 基于智能体样本的初始状态信息, 确定时间差分, 包括: 将所述初始状态信息 输入至所述目标actor网络中进行 预测, 得到当前 策略信息; 将所述初始状态信息和所述当前策略信息输入至所述目标critic网络中进行评价, 得 到对应的当前价 值信息; 根据所述当前价 值信息以及预设的环境奖惩 参数, 确定所述时间差分。 3.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括critic网络; 所述利用所述Agent中的预测网络, 根据所述目标状态信息、 智能体样本的动作信息以 及所述时间差分, 确定误差值, 包括: 将所述目标状态信息和所述动作信息输入至所述critic 网络中进行预测, 得到目标价 值信息; 根据所述目标价 值信息和所述时间差分, 确定所述 误差值。 4.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述预 测网络包括actor网络; 所述基于所述误差值, 以及自适应修改参数, 对所述Agent中的预测网络和目标网络各 自对应的加权值进行 更新, 包括: 基于所述 误差值, 对所述critic网络的加权值进行 更新; 对所述动作信息进行抽样, 得到目标动作信息, 根据所述目标动作信息对所述actor网 络的加权值进行 更新; 根据更新后的所述actor网络的加权值和更新后的critic网络的加权值, 以及所述自 适应修改参数, 对所述目标actor网络和所述目标critic网络各自对应的加权值进行 更新。 5.根据权利要求4所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据更新后的所述critic网络的加 权值和更新后的所述actor网络的加 权值, 以及所述自适 应修改参数, 对 所述目标actor网络和所述目标cr itic网络各自对应的加权值进 行更新, 包 括:权 利 要 求 书 1/2 页 2 CN 115392438 A 2基于预设的自适应加权平均更新模型, 确定所述自适应修改参数; 根据所述自适应修改参数, 确定网络更新模型; 根据网络更新模型, 以及所述更新后的所述critic 网络的加权值和所述更新后的所述 actor网络的加权值, 对所述目标actor网络和所述目标critic网络对应的加权值进行更 新。 6.根据权利要求5所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述自 适应加权平均更新模型为: 其中, τ代表所述自适应 修改参数, batch为智能体 样本个数, Qi为第i个智能体样本对应的所述当前价值信息, 为第i个智能体样本对应的 所述目标价 值信息。 7.根据权利 要求5或6所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述 更新模型为: ω′= τω+(1 ‑τ )ω′# 其中, τ代表所述自适应修改参数, τ小于等于1, ω={ω1, ..., ωn}是所述预测值的集 合, ω′={ω′1, ..., ω′n}是所述目标值的集 合。 8.根据权利要求1所述的基于多Agent环境的深度强化学习算法, 其特征在于, 所述根 据所述目标加权值确定目标深度强化学习模型, 包括: 根据所述目标加权值, 分别对更新后所述critic网络的网络参数和更新后的所述 actor网络的网络参数进行软拷贝, 得到新的目标critic网络和新的目标actor网络; 从而 确定目标深度强化学习模型。 9.一种存储介质, 其特征在于, 包所述存储介质中存储有至少一条指令, 所示指令由处 理器加载并执行以实现如权利要求1 ‑8任一项所述基于多A gent环境中的深度强化学习 算 法。 10.一种设备, 其特征在于, 所述设备包括处理器和存储器, 所述存储器中存储有至少 一条指令, 所示指 令由处理器加载并执行以实现如权利要求1 ‑8任一项所述基于多Agent环 境中的深度强化学习算法。权 利 要 求 书 2/2 页 3 CN 115392438 A 3
专利 基于多Agent环境的深度强化学习算法、设备和存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 12:12:45
上传分享
举报
下载
原文档
(1.2 MB)
分享
友情链接
机房管理制度.pdf
GB-T 38548.2-2020 内容资源数字化加工 第2部分:采集方法.pdf
思度安全-DSMM-022 数据供应链安全管理规范V1.0.pdf
GB-T 33008.1-2016 工业自动化和控制系统网络安全 可编程序控制器 PLC 第1部分:系统要求.pdf
GB-T 28671-2012 制药机械 设备 验证导则.pdf
DB3303-T023-2020 智慧机关事务建设工作指南 温州市.pdf
GA-T DSJ 350-2019 公安大数据安全 安全访问平台技术设计要求.pdf
DB3309-T 93-2022 地理标志产品 嵊泗贻贝 舟山市.pdf
GB-T 37025-2018 信息安全技术 物联网数据传输安全技术要求.pdf
GB-T 38485-2021 微生物痕量基因残留测定 微滴数字PCR法.pdf
绿盟 工业控制系统安全评估流程.pdf
GB-T 4423-2020 铜及铜合金拉制棒.pdf
GB/T 40685-2021 信息技术服务 数据资产 管理要求.pdf
DB11-T 2069-2022 生产安全事故调查与分析技术规范 北京市.pdf
CSA 面向IAM的零信任原则与指南.pdf
GB-T 38548.3-2020 内容资源数字化加工 第3部分:加工规格.pdf
GB-T 34943-2017 C-C++语言源代码漏洞测试规范.pdf
DB65-T4613-2022 农村卫生户厕建设与管理规范 新疆维吾尔自治区.pdf
GB-T 20979-2019 信息安全技术 虹膜识别系统技术要求.pdf
GB-T 35190-2017 海水中碘-131的测定 β计数法.pdf
1
/
3
21
评价文档
赞助2.5元 点击下载(1.2 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。