专利 一种基于多尺度空间引导感知聚合网络的人群计数方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210451241.2 (22)申请日 2022.04.24 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市钱塘新区白杨街道2号大街1 158号申请人杭电（海宁）信息科技研究院有限公司 (72)发明人张硕　郑小青　俞勇　孔亚广　赵晓东　 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多尺度空间引导感知聚合网络的人群计数方法 (57)摘要本发明公开了一种基于多尺度空间引导感知聚合网络的人群计数方法，包括如下步骤： S1、建立多尺度特征提取网络； S2、将任意分辨率地图像输入至多尺度特征提取网络； S3、将多尺度特征提取网络捕获地多尺度特征输入到空间引导网络，并输出上下文引导感知特征和引导感知图； S4、将上下文引导感知特征和引导感知图传到注意力融合网络，最后输出密度图，并构建密度图训练集； S5、建立自适应尺度损失函数，并通过密度图训练集进行自适应训练； S6、将需待预测的图像作为输入，重复步骤S2 ‑S5，输出待预测图像中人群计算结果。利用合理、高效的引导方法对自适应捕获的空间环境进行聚合多尺度信息，提高计数的准确性和鲁棒性。权利要求书4页说明书10页附图3页 CN 114694102 A 2022.07.01 CN 114694102 A 1.一种基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，包括如下步骤： S1、建立多尺度特征提取网络所述多尺度特征提取网络以Inception ‑v3模型为基础，剔除Inception ‑v3前两个最大池化层和全连接层，保留I nception‑v3模型中所有卷积层，多尺度特征提取网络中包含的网络层依次是：五个卷积层、三个Inception ‑A、一个 Inception‑D、四个Inception‑B、一个Inception‑E和两个I nception‑C； S2、将任意分辨率地图像输入至多尺度特征提取网络给定图像输入I，输出特征通过映射表示为： x＝FMFEN 其中， x表示图像捕获的多尺度特征， FMFEN表示多尺度特征提取网络； S3、将多尺度特征提取网络捕获地多尺度特征输入到空间引导网络，并输出上下文引导感知特征和引导感知图； S4、将上下文引导感知特征和引导感知图传到注意力融合网络，最后输出密度图，并构建密度图训练集，所述密度图训练集包括预测密度图和真是密度图； S5、建立自适应尺度损失函数，并通过密度图训练集进行自适应训练； S6、将需待预测的图像作为输入，重复步骤S2 ‑S5，输出待预测图像中人群计算结果。 2.根据权利要求1所述的基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，所述空间引导网络包括空间上下文网络和引导感知网络。 3.根据权利要求2所述的基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，所述步骤S3具体包括如下： S3‑1、空间上下文网络通过一维内核对的远程区域进行编码，接收不同维度的深度信息，得到上下文引导感知特征； S3‑2、通过引导感知网络得到引导感知图。 4.根据权利要求3所述的基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，所述步骤S3‑1包括如下子步骤： S3‑1‑1、由多尺度特征提取网络获得的多尺度特征x，利用条形窗口沿空间维度水平和垂直滑动来提取特征，其中x∈RC×H×W，式中， R表示实数域， C为空间通道数， H、 W分别为空间高度、宽度，窗口大小分别为(H,1)和(1,W)，得到所有行特征的平均值和所有列特征的最大值，因此,水平合并后的输出为yh∈RH×C,表示为：垂直合并后的输出为yw∈ RC×W，表示为：其中， i和j分别代表行和列，通过上述操作对条状区域进行编码，捕获图像远处密集细化的局部细节信息，收集远程上下文信息； S3‑1‑2、将yh和yw输入到内核大小为3的一维卷积层中，用于整合当前位置及其相邻特征，获得不同维度语义特征yhc和ywc。 S3‑1‑3、由于在yhc中的位置和ywc中的位置之间相互独立，通过元素点乘构建和ywc之间的联系，计算和不同位置特征之间的相关性，用M表示输出的相关性特征图：权　利　要　求　书 1/4 页 2 CN 114694102 A 2其中mul[]表示元素点乘； S3‑1‑4、将上述S3 ‑1‑3获取的相关性特征图输入到级联模块中，在级联模块中进行通道级组合以增加图像的特征数量，对其特征图的信息进行整合，在空间上使用1 ×1的卷积对合并后的特征进行处理，获得相似度特征图， yhreshape后特征的不同位置与该相似度特征图进行计算，得到上下文引导感知特征,如下公式所示：其中表示Co nv[]表示卷积运算。 5.根据权利要求4所述的基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，所述步骤S3‑2包括如下子步骤： S3‑2‑1、由多尺度特征提取网络获得的多尺度特征表示为x∈RC×H×W,假设xc表示为每个通道对应的特征图，表示为由于需要捕获更丰富的语义信息，首先使用全局平均池化和全局最大池化操作来对不同的空间信息进行聚合，其中lc1 为全局平均池化， lc2为全局最大池化，如下所示： lc1＝Global AvgPool(xc),lc2＝Global MaxPool(xc)； S3‑2‑2、引导感知网络中采用策略学习跨通道交互，以保留通道层与权重之间的精准对应关系，具体的跨通道交互方法如下：通过执行内核大小为k的1D卷积操作，然后进行叠加运算如公式所示：其中Conv1D表示1D卷积操作， Add表示对应特征相加， lc1和lc2分支中的k取值分别为3和 5； S3‑2‑3、在通道级别中，采用通道标准化，实现通道类型的横向抑制，此处设定则通道标准化如公式如下所示： S3‑2‑4、上式的运算结果通过tanh 激活函数获得引导感知图如下公式所示： 6.根据权利要求5所述的基于多尺度空间引导感知聚合网络的人群计数方法，其特征在于，所述步骤S4中，预测密度图的获取，上下文引导感知特征和引导感知图的尺寸大小为 H×C×W，其中上下文引导感知特征记为f1，引导感知图记为f2，注意力融合网络将f1和f2输入到一个包含ReLU和BN的3 ×3卷积层，分别输出 f1c和f2c，再将f1c和f2c进行联合，然后将联合后的输出作为输入，输入到3 ×3卷积层和1 ×1的卷积层，利用全局平局池化和1 ×1的卷积层进行运算，然后将运算之后的结果通过softmax 预测融合注意力权重α和β，再将α和β 分别与f1c和f2c进行像素级别的点乘，最后联合f1和f2进行求和运算，结果输出为f3，计算公式如下： f3＝Add(f1+f2+α·f1c+β·f2c)权　利　要　求　书 2/4 页 3 CN 114694102 A 3

专利 一种基于多尺度空间引导感知聚合网络的人群计数方法

专利一种基于多尺度空间引导感知聚合网络的人群计数方法