专利 一种基于改进的YOLOv5和DeepSORT的行人追踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210369883.8 (22)申请日 2022.04.08 (71)申请人河海大学地址 211100 江苏省南京市江宁区佛城西路8号 (72)发明人胡鹤轩　周洁　胡强　张晔　袁子扬　许天霖　岳海洋　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师楼然 (51)Int.Cl. G06V 20/52(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/25(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于改进的YOLOv5和DeepSORT的行人追踪方法 (57)摘要本发明公开了一种基于改进的YOLOv5和 DeepSORT 的行人追踪方法，包括：收集行人训练数据集和行人重识别数据集，进行数据预处理；搭建改进的YOL Ov5模型并进行训练，用于对行人检测：以YOLOv5模型为基础，针对检测精度较小问题进行改进，得到改进的YOLOv5模型；搭建改进的DeepSORT模型并进行训练，用于对行人追踪；对检测结果使用区间重叠检测算法过滤误检单位；使用改进的YOL Ov5和DeepSORT模型进行行人追踪。本发明能够捕捉小目标行人的特征和与行人特征类似的单位，不易发生漏检与误检现象，可有效保证检测与追踪的实时性，检测精度高。权利要求书4页说明书9页附图3页 CN 114724082 A 2022.07.08 CN 114724082 A 1.一种基于改进的YOLOv5和De epSORT的行人追踪方法，其特征在于，包括以下步骤：步骤1、收集行人训练数据集和行人重识别数据集，并进行数据预处理；步骤2、搭建改进的YOLOv5模型并进行训练，用于对行人的检测：以YOLOv5模型为基础，针对检测精度较小问题进行改进，得到改进的YOLOv5模型，其结构包括输入端、主干层、颈部层和头部层；步骤3、搭建改进的DeepSORT模型并进行训练，用于对行人的追踪；改进的DeepSORT模型包括目标检测器、卡尔曼滤波预测器、 FastReID特征提取网络、特征匹配器和级联匹配模块；步骤4、对检测结果使用区间重叠检测算法过滤误检单位；步骤5、使用改进的YOLOv5和DeepSORT模型进行行人追踪，其算法流程包括：获取视频、进入检测流程和跟踪流程。 2.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法，其特征在于，步骤1中所述的数据集收集和数据预处理包括：步骤1‑1.收集行人数据集即针对改进的YOLOv5模型训练数据集，和收集行人重识别数据集：收集COCO数据集中的行人标注图片和标注信息、收集3000张在监控视频不同视角下易与行人发生误判单位，并使用LabelImg工具对收集到的图片进行矩形框标注然后写入 XML文件中，最终得到易与行人发生误判单位的标注图片和标注信息；针对行人重识别数据集为Market ‑1501数据集中的行人标注图片和标注信息；步骤1‑2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强，包括: 随机裁剪：找到图像的中心点，以垂直方向进行裁剪，将原图像一分为二，得到两张新图像；镜像操作：通过找到图像的中心点，像素进行左右置换，得到新的图像。 3.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法，其特征在于，步骤2中所述的搭建改进的YOLOv5模型并进行训练，包括：步骤2‑1.搭建改进的YOLOv5模型的输入端，包括： (1)Mosaic数据增强：将四张图片通过翻转、缩放、区域内的色域变化拼接在一张图片内； (2)自适应图片缩放：规定进行训练的图片大小为608 ×608，对x×y进行缩放；计算缩放后的x与y的大小，分别表示为x1与y1，其中 x1＝x×min{x/608,y/608}， y1＝y×min{x/608,y/608}；如果x1<608，则对应的x高度上下添加[(608‑x1)％64]/2高度的黑边，最终凑成608 ×608大小的图片；同理y方向操作，其中min 操作表示为取花括号内最小的值，％表示为取余操作；步骤2‑2.搭建改进的YOLOv5模型的主干层：引入CBAM注意力机制改进C3结构，将其命名为C3A，且内部结构包括一个C3结构与一个CBAM注意力机制模块； C3结构包括两层卷积层与一次特征相加操作，通过对特征相加操作后输出的特征F，进入CBAM注意力机制模块，进行两步特征提取，最终输出提取后的结果，两步特征提取如公式(1)(2)所示： Mc(F)＝σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F))) (1) Ms(F)＝σ(f7×7([Avgpool(Mc(F))； Maxpool(Mc(F))])) (2) 其中， Mc(F)为公式(1)特征提取后的输出值， AvgPool为平均池化层， MaxPool为最大池化层， MLP为两层神经元， f7×7为7×7的卷积， Ms(F)为第二步特征提取后的输出值，即最终输出值；步骤2‑3.搭建改进的YOLOv5模型的颈部层：采用FPN与PAN结构，对主干层输出的特征权　利　要　求　书 1/4 页 2 CN 114724082 A 2进行融合；步骤2‑4.搭建改进的YOLOv5模型的头部层：对采用FPN与PAN融合后的特征进行预测，使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选， CIOU_Loss函数如下：其中， ρ2(B,Bgt)表示预测框和真实框他们中心点的距离， B表示为预测框， Bgt表示为真实框， B∩Bgt为预测框与真实框之间的并集， B∪Bgt为预测框与真实框之间的交集， w表示为预测框的宽度， h表示预测框的高度， wgt为真实框的宽度， hgt表示为真实框的高度， c2表示预测框与真实框形成的外接矩形对角线的长度；步骤2‑5.将行人数据集中针对改进的YOLOv5模型训练数据集输入，将图片尺寸设置为 608×608， batch ‑size设置为16，共训练260个epoch；一个epoch即训练集中的所有图片都在改进的YOLOv5模型中正向与反向各传播一次进行训练，得到效果最优的改进的YOLOv5模型用于后续检测。 4.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法，其特征在于，步骤3中所述的搭建改进的De epSORT模型并进行训练，包括：步骤3‑1.使用改进的YOLOv5模型作为改进的De epSORT模型的目标检测器；步骤3‑2.使用卡尔曼滤波算法做位置预测器；步骤3‑2.使用行人数据集中针对行人重识别的数据集对FastReID特征提取网络进行训练，训练完成后使用FastReID特征提取网络替换DeepSORT模型的原特征提取网络；使用随机裁剪与镜像操作对数据进行增强；主干层中FastReID特征提取网络采用Resnet、 ResNest和ResNext网络来提取数据增强后的目标特征，同时加入IBN和类注意力机制Non ‑ local机制来提取目标特征；在聚合中，算法使用平均池化、最大池化，广义均值池化和注意力池化四类池化方法对主干层中提取的特征进一步优化；在头部层，通过全局向量表示聚合优化后的特征，进而转化到决策层进行预测；损失函数采用Tripletloss与Circle loss，扩大对头部层预测的负样本结果距离，并拉近头部层预测的正样本结果距离；特征为经过头部层后输出的预测框特征；在度量距离中使用经典的DSR算法求出行人数据集中标注结果与预测框特征结果的最短距离值；后处理的QE对初排序的度量距离最近的m个目标的特征和query的特征求平均值，其中query的特征值为每次传来的m个目标特征值与query特征值的平均值，初始值为0，求出均值后，进行重新求距离和排序；其评价指标使用经典的 Rank、 mAP；可视化即排序后的最优结果输出的过程，使用FastReID特征提取网络训练的数据集结果；步骤3‑3.使用匈牙利算法作为特征匹配器，用余弦距离计算检测框经过向量化得到的近似度，利用匈牙利算法对前后两帧中检测框内行人进行匹配；若匹配度高，则认定前后为同一人员，并进行统一 ID编号；步骤3‑4.使用级联匹配模块，对追踪过程中出现频率更高的目标赋予其优先权，以此解决当目标被长时间遮挡时，得到的预测不准确问题。权　利　要　求　书 2/4 页 3 CN 114724082 A 3

专利 一种基于改进的YOLOv5和DeepSORT的行人追踪方法

专利一种基于改进的YOLOv5和DeepSORT的行人追踪方法