(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210369883.8
(22)申请日 2022.04.08
(71)申请人 河海大学
地址 211100 江苏省南京市江宁区佛城西
路8号
(72)发明人 胡鹤轩 周洁 胡强 张晔
袁子扬 许天霖 岳海洋
(74)专利代理 机构 南京经纬专利商标代理有限
公司 32200
专利代理师 楼然
(51)Int.Cl.
G06V 20/52(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06V 10/25(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于改进的YOLOv5和DeepSORT的行人
追踪方法
(57)摘要
本发明公开了一种基于改进的YOLOv5和
DeepSORT 的行人追踪方法, 包括: 收集行人训练
数据集和行人重识别数据集, 进行数据预处理;
搭建改进的YOL Ov5模型并进行训练, 用于对行人
检测: 以YOLOv5模型为基础, 针对检测精度较小
问题进行改进, 得到改进 的YOLOv5模型; 搭建改
进的DeepSORT模型并进行训练, 用于对行人追
踪; 对检测结果使用区间重叠检测算法过滤误检
单位; 使用改进的YOL Ov5和DeepSORT模型进行行
人追踪。 本发 明能够捕捉小目标行人的特征和与
行人特征类似的单位, 不易发生漏检与误检现
象, 可有效保证检测与追踪的实时性, 检测精度
高。
权利要求书4页 说明书9页 附图3页
CN 114724082 A
2022.07.08
CN 114724082 A
1.一种基于改进的YOLOv5和De epSORT的行 人追踪方法, 其特 征在于, 包括以下步骤:
步骤1、 收集行 人训练数据集和行 人重识别数据集, 并进行 数据预处 理;
步骤2、 搭建改进的YOLOv5模型并进行训练, 用于对行人的检测: 以YOLOv5模型为基础,
针对检测精度较小问题进行改进, 得到 改进的YOLOv5模型, 其结构包括输入端、 主干层、 颈
部层和头 部层;
步骤3、 搭建改进的DeepSORT模型并进行训练, 用于对行人的追踪; 改进的DeepSORT模
型包括目标检测器、 卡尔曼滤波 预测器、 FastReID特征提取网络、 特征匹配器和级 联匹配模
块;
步骤4、 对检测结果使用区间重 叠检测算法过 滤误检单位;
步骤5、 使用改进的YOLOv5和DeepSORT模型进行行人追踪, 其算法流程包括: 获取视频、
进入检测流 程和跟踪流 程。
2.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法, 其特征
在于, 步骤1中所述的数据集收集和数据预处 理包括:
步骤1‑1.收集行人数据 集即针对改进的YOLOv5模型训练数据集, 和收集行人重识别数
据集: 收集COCO数据集中的行人标注图片和标注信息、 收集3000张在监控视频不同视角下
易与行人发生误判单位, 并使用LabelImg工具对收集到的图片进行矩形框标注然后写入
XML文件中, 最 终得到易与行人发生误判单位的标注图片和标注信息; 针对行人重识别数据
集为Market ‑1501数据集中的行 人标注图片和标注信息;
步骤1‑2.对改进的YOLOv5模型训练数据集和行人重识别数据集进行数据增强, 包括:
随机裁剪: 找到图像的中心 点, 以垂直方向进 行裁剪, 将原图像一分为二, 得到两张新图像;
镜像操作: 通过找到图像的中心点, 像素进行左右置换, 得到新的图像。
3.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法, 其特征
在于, 步骤2中所述的搭建改进的YOLOv5模型并进行训练, 包括:
步骤2‑1.搭建改进的YOLOv5模型的输入端, 包括: (1)Mosaic数据增强: 将四张图片通
过翻转、 缩放、 区域内的色域变化拼接在一张图片内; (2)自适应图片缩放: 规定进 行训练的
图片大小为608 ×608, 对x×y进行缩放; 计 算缩放后的x与y的大小, 分别表示为x1与y1, 其中
x1=x×min{x/608,y/608}, y1=y×min{x/608,y/608}; 如果x1<608, 则对应的x高度上下添
加[(608‑x1)%64]/2高度的黑边, 最终凑成608 ×608大小的图片; 同理y方向操作, 其中min
操作表示 为取花括号内最小的值, %表示 为取余操作;
步骤2‑2.搭建改进的YOLOv5模型的主干层: 引入CBAM注意力机制改进C3结构, 将其命
名为C3A, 且内部结构包括一个C3结构与一个CBAM注 意力机制模块; C3结构包括两层卷积层
与一次特征相加操作, 通过对特征相加操作后输出的特征F, 进入CBAM注意力机制 模块, 进
行两步特 征提取, 最终输出提取后的结果, 两步特 征提取如公式(1)(2)所示:
Mc(F)=σ(MLP(AvgPo ol(F))+MLP(MaxPo ol(F))) (1)
Ms(F)=σ(f7×7([Avgpool(Mc(F)); Maxpool(Mc(F))])) (2)
其中, Mc(F)为公式(1)特征提取后的输出值, AvgPool为平均池化层, MaxPool为最大池
化层, MLP为两层神经元, f7×7为7×7的卷积, Ms(F)为第二步 特征提取后的输出值, 即最终输
出值;
步骤2‑3.搭建改进的YOLOv5模型的颈部层: 采用FPN与PAN结构, 对主干层输出的特征权 利 要 求 书 1/4 页
2
CN 114724082 A
2进行融合;
步骤2‑4.搭建改进的YOLOv5模型的头部层: 对采用FPN与PAN融合后的特征进行预测,
使用CIOU_Loss作为预测框的损失函数与加权NMS方法对锚框进行筛选, CIOU_Loss函数如
下:
其中,
ρ2(B,Bgt)表示预测框和真实框他们中心点的
距离, B表示为预测框, Bgt表示为真实框, B∩Bgt为预测框与 真实框之间的并集, B∪Bgt为预
测框与真实框之间的交集, w表示为预测框的宽度, h表示预测框的高度, wgt为真实框的宽
度, hgt表示为真实框的高度, c2表示预测框与真实框形成的外 接矩形对角线的长度;
步骤2‑5.将行人数据 集中针对改进的YOLOv5模型训练数据集输入, 将图片尺寸设置为
608×608, batch ‑size设置为16, 共训练260个epoch; 一个epoch即训练集中的所有图片都
在改进的YOLOv5模 型中正向与反向各传播一次进行训练, 得到效果最优的改进的YOLOv5模
型用于后续检测。
4.根据权利要求1所述的一种基于改进的YOLOv5和DeepSORT的行人追踪方法, 其特征
在于, 步骤3中所述的搭建改进的De epSORT模型并进行训练, 包括:
步骤3‑1.使用改进的YOLOv5模型作为改进的De epSORT模型的目标检测器;
步骤3‑2.使用卡尔曼 滤波算法做位置预测器;
步骤3‑2.使用行人数据集中针对行人重识别的数据集对FastReID特征提取网络进行
训练, 训练完成后使用FastReID特征提取网络替换DeepSORT模型的原特征提取网络; 使用
随机裁剪与镜像操作对数据进行增强; 主干层中FastReID特征提取网络采用Resnet、
ResNest和ResNext网络来提取数据增强后的目标特征, 同时加 入IBN和类注意力机制Non ‑
local机制来提取目标特征; 在聚合中, 算法使用平均池化、 最大池化, 广义均值池化和注 意
力池化四类池化方法对主干层中提取 的特征进一步优化; 在头部层, 通过全局向量表示聚
合优化后的特征, 进而转化到决策层进行预测; 损失函数采用Tripletloss与Circle loss,
扩大对头部层预测的负样本结果距离, 并拉近头部层预测的正样本结果距离; 特征为经过
头部层后输出的预测框特征; 在度量距离中使用经典的DSR算法求出行人数据集中标注结
果与预测框特征结果的最短距离值; 后处理的QE对初排序的度量距离最近的m个目标的特
征和query的特征求平均值, 其中query的特征值为每次传来的m个目标特征值与query特征
值的平均值, 初始值为0, 求出均值后, 进行重新求距离和排序; 其评价指标使用经典的
Rank、 mAP; 可视化即排序后的最优结果输出的过程, 使用FastReID特征提取网络训练的数
据集结果;
步骤3‑3.使用匈牙利算法作为特征匹配器, 用余弦距离计算检测框经过向量化得到的
近似度, 利用匈牙利算法对前后两帧中检测框内行人进 行匹配; 若匹配度高, 则认定前后为
同一人员, 并进行统一 ID编号;
步骤3‑4.使用级联匹配模块, 对追踪过程中出现频率更高的目标赋予其优先权, 以此
解决当目标被长时间遮挡时, 得到的预测不 准确问题。权 利 要 求 书 2/4 页
3
CN 114724082 A
3
专利 一种基于改进的YOLOv5和DeepSORT的行人追踪方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:57:49上传分享