(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210366563.7
(22)申请日 2022.04.08
(71)申请人 西北工业大 学
地址 710072 陕西省西安市友谊西路127号
(72)发明人 张世周 张倩
(74)专利代理 机构 西安凯多 思知识产权代理事
务所(普通 合伙) 61290
专利代理师 赵革革
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于特征金字塔局部差异注意力机制
的人群计数方法
(57)摘要
本发明公开了一种基于特征金字塔局部差
异注意力机制的人群计数方法, 提出了一个新颖
的尺度感知的人群计数方法FPN ‑LDA网络, 其通
过特征金字塔网络(FeaturePyramid Network,
FPN)丰富特征尺度, 并利用局部差异注意力
(Local DifferenceAttention,LDA)模块对每个
尺度的特征图进行重新加权, 使特征集中在局部
差异较大的位置, 从而在基本不增加额外计算量
的条件下提升人群计数的精度。 本发 明主要用于
解决尺度变化场景下的人群计数, 从 网络的深度
和广度两个层面处理人群场景尺度变化的问题,
从而达到更高的计数精度。
权利要求书2页 说明书6页 附图2页
CN 114898284 A
2022.08.12
CN 114898284 A
1.一种基于特征金字塔局部差异注意力机制的人群计数方法, 其特征在于, 包括如下
步骤:
步骤1: 输入图片预处 理;
将原始图片的长和宽限制在2048像素以内, 并使用随机裁剪和水平翻转进行数据增
强, 限定输入图片尺寸固定为512 ×512, 得到人群场景图片;
步骤2: 将人群场景图片输入特征金字塔网络提取多尺度特征; 所述特征金字塔网络以
VGG19作为骨干网络;
步骤2‑1: 自底向上阶段: 将VGG19中输出特征尺寸相同的层视为同一阶段, 将骨干 网络
划分为5个阶段; 从第一个阶段开始, 后续每个阶段的特征图尺寸将会减少到前一个阶段的
一半, 选择最后三个阶段输出 的特征图构建三层特征金字塔网络, 特征金字塔网络自底层
到顶层三层的空间分辨 率分别为128 ×128、 64×64、 32×32;
步骤2‑2: 自顶向下阶段: 将顶层特征图连续上采样两次, 得到空间分辨率为64 ×64和
128×128的上采样特 征图;
步骤2‑3: 横向连接阶段: 通过逐元素相加的方式, 将相同分辨率的上采样特征图与特
征金字塔网络的特征图合并; 将合并后的两个特征图及顶层特征图分别进 行3×3卷积操作
后, 再经过采样使分辨率都变为64 ×64, 再使用1 ×1卷积层改变通道数为128, 最后将三者
按通道拼接在一 起得到64×64×384大小的特 征图ffpn∈R384×64×64;
步骤3: 计算局部 差异注意力权 重并对特 征图进行加权;
步骤3‑1: 分别采用核大小分别为1 ×1、 2×2和4×4的平均池化层对特征图ffpn进行平
均池化操作, 获取多感受野下的多尺度特 征图, 公式如下:
Fj=Pavg(ffpn,j),j∈{1,2,3} (1)
其中, Pavg(·,j)表示进行平均池化操作; 得到三个分支的金字塔特征图Fj的尺寸分别
为64×64、 32×32和16×16;
步骤3‑2: 在步骤3 ‑1得到的每 个分支上 执行1×1卷积操作, 公式如下:
其中, conv( ·,·)表示卷积操作, 然后对输出特征图
进行上采样操作, 使分辨率都
变为64×64, 公式如下:
其中, Up(·)表示上采样 操作;
步骤3‑3: 将特征图fj与特征图ffpn做差, 再进行1 ×1卷积得到局部 差异注意力权 重:
其中,
表示卷积参数;
使用局部差异注意力权重对特征图ffpn进行加权, 并按通道进行合并, 得到大小为64 ×
64×768的多尺度特 征图f, 计算公式如下:
权 利 要 求 书 1/2 页
2
CN 114898284 A
2其中,
表示两个矩阵的逐 元素乘积操作, C(·)表示按通道合并操作;
步骤4: 将多尺度特 征图解码为单通道密度图;
将多尺度特征图f输入解码器, 得到最终的密度图, 对密度图进行求和得到对应人群场
景的计数值;
所述解码器为多个卷积层堆叠而成;
步骤5: 对步骤2和步骤3构建的FPN ‑LDA网络进行训练, 将训练集中数据分批次输入
FPN‑LDA网络中, 生 成每幅图片的预测密度图, 利用预测的密度图和真实人群场景的点标签
计算损失, 具体使用Bayesian损失构建点标注的密度贡献概 率模型, 公式如下:
其中, cn表示每个人头注释点的真实人数值, E[cn]表示每个注释点处的人数期望值, N
表示整个场景的总人 数;
使用优化器进行优化, 直至目标函数LBayes的值不下降时结束训练;
步骤6: 测试 过程;
将测试图像输入训练后的FPN ‑LDA网络获取多尺度特征, 然后将多尺度特征输入解码
器即得到对应的密度图, 最后, 对密度图求和得到场景人群总数, 并使用平均绝对误差MAE
和均方误差 MSE对计数性能进行评估。
2.根据权利要求1所述的一种基于特征金字塔局部差异注意力机制的人群计数方法,
其特征在于, 所述解码器为四个卷积层堆叠, 大小分别为3 ×3×384、 3×3×192、 3×3×96、
1×1×1。权 利 要 求 书 2/2 页
3
CN 114898284 A
3
专利 一种基于特征金字塔局部差异注意力机制的人群计数方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:58:19上传分享