专利 一种基于场景注意力的垃圾检测方法、装置及相关介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210705842.1 (22)申请日 2022.06.21 (71)申请人武汉市万睿数字运营有限公司地址 430000 湖北省武汉市江汉区新华路 758号唐家墩K6开发地块（二期） 1号独立商业栋 /单元1-2层商4 号 (72)发明人王力　马汉林　卢桂福　刘强　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师丁宇龙 (51)Int.Cl. G06V 20/52(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于场景注意力的垃圾检测方法、装置及相关介质 (57)摘要本发明公开了一种基于场景注意力的垃圾检测方法、装置及相关介质，该方法包括：获取历史垃圾图像，并对所述历史垃圾图像进行标注；将标注的历史垃圾图像输入至改进的Yolov5网络和场景注意力机制中进行学习，以构建得到场景理解目标检测网络；利用损失函数对所述场景理解目标检测网络进行多目标训练；通过训练后的场景理解目标检测网络对指定的垃圾图像进行检测，得到对应的场景置信度，并将所述场景置信度作为垃圾检测结果。本发明结合Yolov5网络和场景注意力机制构建基于场景置信度的场景理解目标检测网络，从而结合垃圾图像对应的场景进行检测，如此可提高垃圾检测精度。权利要求书2页说明书8页附图3页 CN 115035474 A 2022.09.09 CN 115035474 A 1.一种基于场景注意力的垃圾检测方法，其特征在于，包括：获取历史垃圾图像，并对所述历史垃圾图像进行标注；将标注的历史垃圾图像输入至改进的Yolov5网络和场景注意力机制中进行学习，以构建得到场景理解目标检测网络；利用损失函数对所述场景理解目标检测网络进行多目标训练；通过训练后的场景理解目标检测网络对指定的垃圾图像进行检测，得到对应的场景置信度，并将所述场景置信度作为垃圾检测结果。 2.根据权利要求1所述的基于场景注意力的垃圾检测方法，其特征在于，所述将标注的历史垃圾图像输入至改进的Yolov5网络和场景注意力机制中进行学习，以构建得到场景理解目标检测网络，包括：将标注的历史垃圾图像输入至改进的Yolov5网络中，并由所述改进的Yolov5网络预测输出所述历史垃圾图像对应的目标框特征；其中，所述目标框特征包括目标框位置坐标、目标框置信度和目标类别；通过场景理解分支卷积神经网络对所述目标框特征提取全局特征，得到对应的场景特征；基于所述目标框位置坐标，通过路径聚合网络提取所述目标框特征对应的目标框视觉特征；将所述目标框位置坐标进行编码处理，得到对应的目标框位置特征；将所述目标置信度、目标框视觉特征和目标框位置特征输入至注意力模型，并由所述注意力模型融合输出对应的融合特征；将所述融合特征与所述场景特征进行拼接，并将拼接结果输入至全连接层中，由所述全连接层输出最终的场景置信度。 3.根据权利要求2所述的基于场景注意力的垃圾检测方法，其特征在于，所述将标注的历史垃圾图像输入至改进的Yolov5网络中，并由所述改进的Yolov5网络预测输出所述历史垃圾图像对应的目标框特征，包括：将所述Yolov5网络中的耦合头替换为可分离头，并利用所述可分离头对所述历史垃圾图像进行预测输出；其中，所述可分离头包括三个分别用于预测所述目标框位置坐标、目标框置信度和目标框类别的卷积层。 4.根据权利要求2所述的基于场景注意力的垃圾检测方法，其特征在于，所述通过场景理解分支卷积神经网络对所述目标框特征提取全局特征，得到对应的场景特征，包括：依次通过第一卷积层、第一激活函数层和第一全局特征池化层对所述目标框特征进行特征提取，得到所述场景特征。 5.根据权利要求2所述的基于场景注意力的垃圾检测方法，其特征在于，所述基于所述目标框位置坐标，通过路径聚合网络提取所述目标框特征对应的目标框视觉特征，包括：基于所述目标框位置坐标，将对应的目标框映射至特征图上；依次通过第二卷积层、第二激活函数层和第二全局特征池化层提取得到所述特征图的目标特征，并将所述目标特征作为所述目标框视觉特征。 6.根据权利要求2所述的基于场景注意力的垃圾检测方法，其特征在于，所述将所述目标置信度、目标框视觉特征和目标框位置特征输入至注意力模型，并由所述注意力模型融权　利　要　求　书 1/2 页 2 CN 115035474 A 2合输出对应的融合特征，包括：按照下式将所述目标框位置坐标、目标框视觉特征和目标框位置特征融合为所述融合特征：式中，表述逐元素相乘， d表示提取得到的向量维度， F、 G、 P 分别表示目标框视觉特征向量矩阵、目标框位置坐标向量矩阵、目标框位置特征向量矩阵， F ·GT表示矩阵F和矩阵G 的转置相乘。 7.根据权利要求1所述的基于场景注意力的垃圾检测方法，其特征在于，所述利用损失函数对所述场景理解目标检测网络进行多目标训练，包括：按照下式，采用损失函数L对所述场景理解目标检测网络进行多目标训练： L＝Lyolov5+Lscene 式中， Lyolov5为Yolov5网络的损失函数， Lscene计算场景置信度损失函数，其中， yi表示对应的历史垃圾图像的真实场景类别， si表示场景理解目标检测网络输出的场景类别得分， i 为预测的多个类别。 8.一种基于场景注意力的垃圾检测装置，其特征在于，包括：图像标注单元，用于获取历史垃圾图像，并对所述历史垃圾图像进行标注；网络构建单元，用于将标注的历史垃圾图像输入至改进的Yolov5网络和场景注意力机制中进行学习，以构建得到场景理解目标检测网络；网络训练单元，用于利用损失函数对所述场景理解目标检测网络进行多目标训练；垃圾检测单元，用于通过训练后的场景理解目标检测网络对指定的垃圾图像进行检测，得到对应的场景置信度，并将所述场景置信度作为垃圾检测结果。 9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求 1至7任一项所述的基于场景注意力的垃圾检测方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求 1至7任一项所述的基于场景注意力的垃圾检测方法。权　利　要　求　书 2/2 页 3 CN 115035474 A 3

专利 一种基于场景注意力的垃圾检测方法、装置及相关介质

专利一种基于场景注意力的垃圾检测方法、装置及相关介质