国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210450859.7 (22)申请日 2022.04.26 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 杨松 侯彪 李凡  (74)专利代理 机构 北京正阳理工知识产权代理 事务所(普通 合伙) 11639 专利代理师 王松 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) H04N 7/18(2006.01) (54)发明名称 一种基于深度强化学习的监控视频目标检 测任务调度方法 (57)摘要 本发明涉及一种基于深度强化学习的监控 视频目标检测任务调度方法, 属于边缘计算技术 领域。 首先抽取监控视频关键帧压缩待处理视频 规模, 使用残差U ‑Net神经网络对监控视频的关 键帧进行显著性目标检测, 识别有价值的目标信 息。 同时, 采用云边协作架构, 根据云服务器和边 缘设备的可用资源, 使用深度强化学习异步优势 行动者评论家A 3C算法优 化调度残 差U‑Net网络, 将残差U‑Net网络目标检测任务根据当前系统可 用资源, 自适应地卸载在云服务器或边缘设备执 行, 从而减小系统时延, 提高实时性能。 权利要求书3页 说明书7页 附图6页 CN 115082845 A 2022.09.20 CN 115082845 A 1.一种基于深度强化学习的监控视频目标检测任务调度方法, 其特征在于, 包括以下 步骤: 步骤1: 分析识别出监控视频中的关键目标信息; 首先, 根据监控视频的时空特 征, 分析并提取 出监控视频中的关键帧; 然后, 使用残差U ‑Net网络对监控视频的关键帧进行显著性目标检测, 识别出关键目标 信息; 步骤2: 采用基于边缘计算的云边协作架构, 根据云服务器和边缘设备的可用资源, 使 用深度强化学习异步优势行动者评论家 A3C算法来优化调度残差U ‑Net网络目标检测任务; 步骤3: 根据步骤2学习到的异步优势行动者评论家A3C模型, 确定下一个目标检测残差 U‑Net任务的执 行位置, 即, 是将目标检测任务卸载在云服 务器还是在边 缘设备; 然后, 继续利用深度强化学习执行调度策略, 决策下一个残差U ‑Net目标检测任务的卸 载执行位置。 2.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法, 其 特征在于, 步骤1中, 使用H.264标准编码监控视频, 抽取监控视频的关键帧; 使用FFmpeg工 具抽取监控视频关键帧, 用作监控视频目标检测任务的输入。 3.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法, 其 特征在于, 步骤1 中, 使用的残差U ‑Net模型为卷积网络结构, 通过对输入图片的每个像素进 行分类, 能够快速 定位与区分边界; 该网络结构是对称的, 包括两个部分: 左侧部分称为收缩路径, 该路径 由卷积层构成; 右侧部分是扩展路径, 该路径由转置的卷积层构成; 残差U‑Net模型主体采用全卷积神经网络, 使用卷积层代替全连接层, 由局部特征提取 的输入卷积层、 对称编码器和解码器结构, 以及通过求和融合局部和不同尺度特征 的残差 连接组成。 4.如权利要求1所述的一种基于深度强化学习的监控视频目标检测任务调度方法, 其 特征在于, 步骤2中, 监控视频的残差U ‑Net网络目标检测任务以离散时间的方式到达监控 视频系统中; 在每个时间片内, 任务调度程序选择若干个等待任务调度到云服务器或者边 缘设备卸载 执行; 设每个任务的资源需求在到达时是已知的, 每个残差U ‑Net任务α 的资源需求由向量Rα =(rα,1,rα,2,…,rα,n)给出, rα,n表示第n个到 达的残差U ‑Net目标检测任务的资源需求; 设采用云边协作的监控视频系统不具备抢占式调度功能; 任务从开始执行到完成时, 系统必须 连续分配向量Rα中所需的所有资源, 否则该目标检测任务 不能执行; 对于每个残差U ‑Net任务α, 计算时延比例Sa由 计算得出, 表示 任务的计算时间, 即分配目标检测任务所需的全部资源后, 从任务开始计算到执行完成的 时间; Tα是任务的持续时间, 即从任务到 达系统, 到任务执 行完成的持续时间; A3C算法包括状态空间、 动作空间、 奖励函数, 其中: 状态空间: 根据基于云边协作机制的监控视频系统的状态, 当前云服务器与边缘设备 之间的可用资源, 以及等待调度执行的残差U ‑Net任务所需求的资源; 在每一轮的任务决策 之后, 代理能够观察到当前状态St, St=(Bt,Cc,t,Ce,t,Oe,t,Oc,t,Lt),Bt表示边缘节点与云服权 利 要 求 书 1/3 页 2 CN 115082845 A 2务器之间的链路带宽, Cc,t和Ce,t分别表示云服务器与边缘节点的计算能力, Oc,t和Oe,t分别 代表云服务器与边 缘节点的存 储资源, Lt是边缘节点与云服 务器之间的网络延迟; 动作空间: 在每一个时间片, 调度程序会根据当前的可用资源选择若干个等待执行的 任务将其卸载在云服务器或者边缘节点执行; 为减小系统的动作空间at, 使用xfα来表示选 择的结果, 当xfα=0时, 表示将视频处理任务卸载到云服务器执行, 当xfα=1时, 表示将视频 处理任务调度卸载到边 缘设备执行; 奖励函数: 通过奖励函数rt的反馈, 使代理加速优 化目标函数的过程; 具体地, 将每一个 训练轮次的奖励函数设置为 Tα表示任务的持续时间, T表示总训练轮次; 在每一轮 的决策后, 代理都会收到奖励函数的反馈信号, 通过奖励函数的累积和, 最 终可以实现时延 最小的目标; 首先, 生成一个将样本批量转换为(S(t),a(t),R(t),S(t+1))的格式形成回放缓冲经 验池, 其中S(t)代表t时刻的状态, a(t)代表t时刻采取的动作, R(t)表示S(t)下采取a(t)获 得的奖励, S(t+1)代 表下一个 状态; 然后, 从历史缓冲池中小批量地取出部分样本, 异步训练actor网络和critic网络, 更 新全局网络参数。 5.如权利要求4所述的一种基于深度强化学习的监控视频目标检测任务调度方法, 其 特征在于, 异步优势行动者评论家 A3C算法的处 理流程, 包括如下: S1: 随机初始化actor网络与critic网络; S2: 初始化 参数值, 包括奖励Reward、 时间片t, 并初始化State: S0; 其中, State表示监控视频系统的云和边缘设备可用资源的状态, S0表示初始时的系统 可用资源状态; reward值是通过a gent在环境中执 行行动得到的反馈, 通过这种方式对奖励进行积累; 将动作能否带来奖励和是否满足系统时延要求, 作为影响reward值的标准; S3: 接收State: S0; S4: 根据环境 为每个节点选择动作: S41: for t∈[1:T*episode] S42: for t∈[1:T] 其中, T表示时间周期, episode 是运行周期数; S5: 通过actor网络生成Action:a(t); 其中, Action表示调度 器将目标检测任务卸载执 行位置的决策; S6: 执行Action:a(t), 更新环境和历史经验回放池; S7: 判断时间片是否结束, 如果 为否, 执行S8; S8: 更新Reward的值; S9: 判断动作选择 是否正确, 以及是否有请求被完成; 如果动作选择正确, 并且有请求被完成, 则将Reward值增大; 如果动作选择不 正确, 则将Reward值减小; S10: 判断时间片是否结束; 如果未结束, 则返回S4; 如果结束, 则重置时间片t, 并输出一个时间周期内的Reward,权 利 要 求 书 2/3 页 3 CN 115082845 A 3

.PDF文档 专利 一种基于深度强化学习的监控视频目标检测任务调度方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度强化学习的监控视频目标检测任务调度方法 第 1 页 专利 一种基于深度强化学习的监控视频目标检测任务调度方法 第 2 页 专利 一种基于深度强化学习的监控视频目标检测任务调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:58:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。