国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210366563.7 (22)申请日 2022.04.08 (71)申请人 西北工业大 学 地址 710072 陕西省西安市友谊西路127号 (72)发明人 张世周 张倩  (74)专利代理 机构 西安凯多 思知识产权代理事 务所(普通 合伙) 61290 专利代理师 赵革革 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于特征金字塔局部差异注意力机制 的人群计数方法 (57)摘要 本发明公开了一种基于特征金字塔局部差 异注意力机制的人群计数方法, 提出了一个新颖 的尺度感知的人群计数方法FPN ‑LDA网络, 其通 过特征金字塔网络(FeaturePyramid  Network, FPN)丰富特征尺度, 并利用局部差异注意力 (Local DifferenceAttention,LDA)模块对每个 尺度的特征图进行重新加权, 使特征集中在局部 差异较大的位置, 从而在基本不增加额外计算量 的条件下提升人群计数的精度。 本发 明主要用于 解决尺度变化场景下的人群计数, 从 网络的深度 和广度两个层面处理人群场景尺度变化的问题, 从而达到更高的计数精度。 权利要求书2页 说明书6页 附图2页 CN 114898284 A 2022.08.12 CN 114898284 A 1.一种基于特征金字塔局部差异注意力机制的人群计数方法, 其特征在于, 包括如下 步骤: 步骤1: 输入图片预处 理; 将原始图片的长和宽限制在2048像素以内, 并使用随机裁剪和水平翻转进行数据增 强, 限定输入图片尺寸固定为512 ×512, 得到人群场景图片; 步骤2: 将人群场景图片输入特征金字塔网络提取多尺度特征; 所述特征金字塔网络以 VGG19作为骨干网络; 步骤2‑1: 自底向上阶段: 将VGG19中输出特征尺寸相同的层视为同一阶段, 将骨干 网络 划分为5个阶段; 从第一个阶段开始, 后续每个阶段的特征图尺寸将会减少到前一个阶段的 一半, 选择最后三个阶段输出 的特征图构建三层特征金字塔网络, 特征金字塔网络自底层 到顶层三层的空间分辨 率分别为128 ×128、 64×64、 32×32; 步骤2‑2: 自顶向下阶段: 将顶层特征图连续上采样两次, 得到空间分辨率为64 ×64和 128×128的上采样特 征图; 步骤2‑3: 横向连接阶段: 通过逐元素相加的方式, 将相同分辨率的上采样特征图与特 征金字塔网络的特征图合并; 将合并后的两个特征图及顶层特征图分别进 行3×3卷积操作 后, 再经过采样使分辨率都变为64 ×64, 再使用1 ×1卷积层改变通道数为128, 最后将三者 按通道拼接在一 起得到64×64×384大小的特 征图ffpn∈R384×64×64; 步骤3: 计算局部 差异注意力权 重并对特 征图进行加权; 步骤3‑1: 分别采用核大小分别为1 ×1、 2×2和4×4的平均池化层对特征图ffpn进行平 均池化操作, 获取多感受野下的多尺度特 征图, 公式如下: Fj=Pavg(ffpn,j),j∈{1,2,3}         (1) 其中, Pavg(·,j)表示进行平均池化操作; 得到三个分支的金字塔特征图Fj的尺寸分别 为64×64、 32×32和16×16; 步骤3‑2: 在步骤3 ‑1得到的每 个分支上 执行1×1卷积操作, 公式如下: 其中, conv( ·,·)表示卷积操作, 然后对输出特征图 进行上采样操作, 使分辨率都 变为64×64, 公式如下: 其中, Up(·)表示上采样 操作; 步骤3‑3: 将特征图fj与特征图ffpn做差, 再进行1 ×1卷积得到局部 差异注意力权 重: 其中, 表示卷积参数; 使用局部差异注意力权重对特征图ffpn进行加权, 并按通道进行合并, 得到大小为64 × 64×768的多尺度特 征图f, 计算公式如下: 权 利 要 求 书 1/2 页 2 CN 114898284 A 2其中, 表示两个矩阵的逐 元素乘积操作, C(·)表示按通道合并操作; 步骤4: 将多尺度特 征图解码为单通道密度图; 将多尺度特征图f输入解码器, 得到最终的密度图, 对密度图进行求和得到对应人群场 景的计数值; 所述解码器为多个卷积层堆叠而成; 步骤5: 对步骤2和步骤3构建的FPN ‑LDA网络进行训练, 将训练集中数据分批次输入 FPN‑LDA网络中, 生 成每幅图片的预测密度图, 利用预测的密度图和真实人群场景的点标签 计算损失, 具体使用Bayesian损失构建点标注的密度贡献概 率模型, 公式如下: 其中, cn表示每个人头注释点的真实人数值, E[cn]表示每个注释点处的人数期望值, N 表示整个场景的总人 数; 使用优化器进行优化, 直至目标函数LBayes的值不下降时结束训练; 步骤6: 测试 过程; 将测试图像输入训练后的FPN ‑LDA网络获取多尺度特征, 然后将多尺度特征输入解码 器即得到对应的密度图, 最后, 对密度图求和得到场景人群总数, 并使用平均绝对误差MAE 和均方误差 MSE对计数性能进行评估。 2.根据权利要求1所述的一种基于特征金字塔局部差异注意力机制的人群计数方法, 其特征在于, 所述解码器为四个卷积层堆叠, 大小分别为3 ×3×384、 3×3×192、 3×3×96、 1×1×1。权 利 要 求 书 2/2 页 3 CN 114898284 A 3

.PDF文档 专利 一种基于特征金字塔局部差异注意力机制的人群计数方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于特征金字塔局部差异注意力机制的人群计数方法 第 1 页 专利 一种基于特征金字塔局部差异注意力机制的人群计数方法 第 2 页 专利 一种基于特征金字塔局部差异注意力机制的人群计数方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:58:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。