(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211120985.2
(22)申请日 2022.09.15
(66)本国优先权数据
202210309611.9 2022.03.28 CN
(71)申请人 东北大学
地址 110819 辽宁省沈阳市和平区文化路3
号巷11号
(72)发明人 曾荣飞 安树阳 曾超 韩波
苏迈 王家齐
(74)专利代理 机构 北京科领智诚知识产权代理
事务所(普通 合伙) 11782
专利代理师 陈士骞
(51)Int.Cl.
G06Q 30/08(2012.01)
G06N 20/00(2019.01)
(54)发明名称
基于多智能体强化学习算法在联邦学习下
的用户竞 价方法及装置
(57)摘要
本发明公开一种基于多智能体强化学习算
法在联邦 学习下的用户竞价方法及装置, 方法包
括: 获取联邦学习平台发布的学习任务, 样本客
户端利用强化学习算法向联邦平台上传竞标信
息, 平台通过算法选取样本客户端后下向被选中
的样本客户端下发全局共享模型, 被选中的样本
客户端进行本地训练并上传更新参数, 平台将上
传的更新模型参数按照聚合算法进行聚合并对
全局模型中的模 型参数进行更新。 以完成联邦学
习平台发布的学习任务, 此方法在实现联邦学习
参与用户的动态竞价的同时缓解了模型的过拟
合, 解决了现有基于拍卖的激励机制由于用户提
交竞价策略后, 用户竞价策略在后续训练过程中
不会发生改变而导致联邦学习公平性缺失以及
模型过拟合的问题。
权利要求书3页 说明书12页 附图2页
CN 115358831 A
2022.11.18
CN 115358831 A
1.一种基于多智能体强化学习算法在联邦学习下的用户竞价方法, 其特征在于, 所述
方法包括:
获取联邦学习平台发布的学习 任务, 基于所述学习 任务以及参与 联邦学习的客户端集
合所上传的竞标信息从所述客户端集合中选取样本客户端, 并向样本客户端 下发全局共享
模型;
接收每个样本客户端上传的更新模型参数, 所述更新模型参数为样本客户端在训练开
始之前使用多智能体强化学习算法输出样本客户端在当前轮次的待提交竞标信息, 被选中
后按照所述待提交竞标信息中的配置训练全局共享模型 所形成的;
对各个样本客户端上传的更新模型参数进行聚合, 使用聚合后的更新模型参数对所述
全局共享模型中的模型参数进行 更新;
若更新后的全局共享模型在测试任务中达到预设模型精度, 则判定完成联邦学习平台
发布的学习任务, 否则, 重复执行多个轮次对全局共享模型中模型参数进 行更新的步骤, 以
使得更新后的全局共享模型在测试任务中达 到预设模型精度。
2.如权利要求1所述的方法, 其特征在于, 所述样本客户端使用多智能体强化学习算法
输出样本客户端在当前轮次的待提交竞标信息的过程, 包括:
以所述样本客户端作为智能体, 所述智能体观察在联邦学习环境中自身的历史状态信
息, 并利用所述历史状态信息 输出所述样本客户端在当前轮次的待提交竞标信息 。
3.如权利要求2所述的方法, 其特征在于, 所述多智能体强化学习算法包括策略器和经
验池, 所述以所述样本客户端作为智能体, 所述智能体观察在联邦学习环境中自身的历史
状态信息, 并利用所述历史状态信息输出所述样本客户端在当前轮次的待提交竞标信息,
包括:
以所述样本客户端作为智能体, 使用所述多智能体强化学习算法中经验池来存储联邦
学习环境中各个智能体观察到的历史任务状态信息, 所述历史任务状态信息至少包括智能
体在历史轮次中是否被选中、 历史资源值、 历史提供 数据量以及历史单位资源量;
通过将所述智能体在所述联邦学习环境中观察到的历史任务状态信息作为智能体在
当前轮次的状态信息输入至所述多智能体强化学习算法中策略器, 输出智能体在当前轮次
的待提交竞标信息 。
4.如权利要求3所述的方法, 其特征在于, 在所述通过将所述智能体在所述联邦学习环
境中观察到的历史任务状态信息作为智能体在当前轮次的状态信息输入至所述多智能体
强化学习算法中策略器, 输出智能体在当前轮次的待提交竞标信息之后, 所述方法还 包括:
计算联邦学习环境针对智能体在 当前轮次反馈的收益资源, 并使用所述多智能体强化
学习算法中经验池存储智能体在当前轮次观察到环境的历史状态、 待提交竞标信息、 待提
交竞标信息上传后的环境状态以及联邦学习环境针对当前轮次上传的待提交竞标信息反
馈给智能体的收益资源。
5.如权利要求4所述的方法, 其特征在于, 所述计算联邦学习环境针对智能体在 当前轮
次反馈的收益资源, 包括:
基于智能体在 当前轮次上的待上传竞标信 息, 分别获取智能体在竞标过程中涉及的资
源参数;
将所述智能体在竞标过程中涉及的资源参数输入至预先构建的收益函数, 得到联邦学权 利 要 求 书 1/3 页
2
CN 115358831 A
2习环境针对智能体在当前轮次反馈的收益资源。
6.如权利要求3所述的方法, 其特征在于, 每个样本客户端配置有一个策略器, 所述策
略器包括动作网络和价值网络, 所述通过将所述联邦学习环境中观察到的历史任务状态信
息作为智能体在当前轮次的状态信息输入至所述多智能体强化学习算法中策略器, 输出智
能体在当前轮次的待提交竞标信息, 包括:
通过将所述智能体在所述联邦学习环境中观察到的历史任务状态信息作为智能体在
当前轮次的状态信息输入至所述策略器中动作网络, 输出智能体在当前轮次的待提交竞标
信息, 得到智能体在当前训练轮次的待上传竞标信息;
通过将所述智能体在当前轮次的状态信息以及智能体在当前轮次的待上传竞标信息
输入至所述策略器中价值网络, 对所述待上传竞标信息进行评估, 得到待上传竞标信息的
评估分数;
其中, 所述动作网络利用所述待上传竞标信息的评估分数进行训练, 所述动作网络的
网络参数通过梯度上升来更新, 所述价值网络利用所述待 上传竞标信息的评估分数以及智
能体实际反馈的收益资源进行训练, 所述 价值网络的网络参数通过时序差分法来更新。
7.如权利要求1 ‑6中任一项所述的方法, 其特征在于, 所述对各个样本客户端上传的更
新模型参数进 行聚合, 使用聚合后的更新模型参数对所述全局共享模型中的模型参数进 行
更新, 包括:
分别计算各个样本客户端的数据量与所有样本客户端的数据量的比值, 得到每个样本
客户端对应的数据量占比;
将每个样本客户端对应的数据量占比乘以相应样本客户端上传的更新模型参数后, 聚
合所有样本客户端对应的更新模型参数, 通过累加聚合后更新模型参数对全局共享模型中
的模型参数进行 更新。
8.一种基于多智能体强化学习算法在联邦学习下的用户竞价装置, 其特征在于, 所述
装置包括:
获取单元, 用于获取联邦学习平台发布的学习任务, 基于所述学习任务以及参与联邦
学习的客户端集合所上传的竞标信息从所述客户端集合中选取样本客户端, 并向样本客户
端下发全局共享模型;
接收单元, 用于接收每个样本客户端上传的更新模型参数, 所述更新模型参数为样本
客户端使用多智能体强化学习算法输出样本客户端在当前轮次的待提交竞标信息训练全
局共享模型 所形成;
聚合单元, 用于对各个样本客户端上传的更新模型参数进行聚合, 使用聚合后的更新
模型参数对所述全局共享模型中的模型参数进行 更新;
选取单元, 用于若更新后的全局共享模型在测试任务中达到预设模型精度, 则判定完
成联邦学习平台发布的学习任务, 否则, 重复执行多个轮次对全局共享模型中模型参数进
行更新的步骤, 以使得 更新后的全局共享模型在测试任务中达 到预设模型精度。
9.一种存储介质, 其上存储有可执行指令, 其特征在于, 该指令被处理器执行时使处理
器实现所述基于多智能体强化学习算法在联邦学习下的用户竞 价的方法。
10.一种基于多智能体强化学习算法在联邦学习下的用户竞价的设备, 其特征在于, 包
括:权 利 要 求 书 2/3 页
3
CN 115358831 A
3
专利 基于多智能体强化学习算法在联邦学习下的用户竞价方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:48上传分享