(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210382224.8
(22)申请日 2022.04.13
(71)申请人 浪潮通信 信息系统有限公司
地址 250100 山东省济南市高新区浪潮路
1036号浪潮科技园S0 6号楼
(72)发明人 袁鑫 许丙健 张文宜
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 阚恭勇
(51)Int.Cl.
G06V 20/40(2022.01)
G06K 9/62(2022.01)
G06V 20/52(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种基于GPU车辆 视频检测方法
(57)摘要
本发明提供一种基于GPU车辆视频检测方
法, 属于车辆图像识别技术领域, 本发明包括实
时视频流解码、 格式及分辨率转换、 目标检测模
型训练及检测。 本发明通过使用GPU进行视频解
码和检测, 能够满足对大量视频图像进行实时、
并发车辆 检测的需求。
权利要求书1页 说明书3页
CN 114758275 A
2022.07.15
CN 114758275 A
1.一种基于GPU车辆 视频检测方法, 其特 征在于,
包括如下步骤:
(1)使用VP F框架中的PyNvCodec模块中 的PyNvDecoder方法, 对监控摄像机输出的原始
视频流进行解码, 得到一帧图像数据; 要求图像原 始分辨率不低于19 20*1080。
(2)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法, 将步骤(1)中的图
像数据进行格式转换, 转换为YUV420数据格式;
(3)使用VP F框架中的PyNvCodec模块中的PySurfaceResizer方法, 将步骤(2)转换后的
图像大小修改为1280 *720分辨 率;
(4)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法, 将步骤(3)中的图
像数据进行格式转换, 转换为RGB数据格式;
(5)对步骤(4)中图像中的车辆进行位置和类型标注, 纳入卷积神经网络模型进行目标
检测训练, 最终输出针对车辆识别的目标检测模型;
(6)加载目标检测模型, 对步骤(4)中拍摄的图像进行目标检测识别, 识别分辨率为
416*416, 置信度阈值设置为0.45, 识别并获取图像中的车辆位置及对应车辆类型。
2.根据利要求1所述的方法, 其特 征在于,
所述步骤(1)中, 使用VPF框架中的PyNvCodec模块中的PyNvDecoder进行视频解码, 此
方式将使用GPU 进行识别解码。
3.根据利要求1所述的方法, 其特 征在于,
所述步骤(2)中, 使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行
格式转换, 此 方式将使用GPU 进行处理。
4.根据利要求1所述的方法, 其特 征在于,
所述步骤(3)中, 使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法调整图
像分辨率, 此方式将使用GPU 进行处理。
5.根据利要求1所述的方法, 其特 征在于,
所述步骤(4)中, 使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行
格式转换, 此 方式将使用GPU 进行处理。
6.根据利要求1所述的方法, 其特 征在于,
步骤5)所述的标注、 训练动作, 仅在无目标检测模型或模型需要优化时执 行。
7.根据利要求1或6所述的方法, 其特 征在于,
所述步骤(5)中, 使用基于Darknet实现的yolov4 ‑tiny检测网络进行训练, 训练使用
4800张分辨率为1280*720的车辆样例图片, 训练时网络图像 分辨率为608*608, 训练轮次为
20万轮。
8.根据利要求1所述的方法, 其特 征在于,
所述步骤(6)中, 识别分辨 率为416*416, 置信度阈值设置为0.45 。权 利 要 求 书 1/1 页
2
CN 114758275 A
2一种基于GPU车辆视频检测方 法
技术领域
[0001]本发明涉及车辆图像识别、 视频图像解码领域, 尤其涉及一种基于GPU车辆视频检
测方法。
背景技术
[0002]随着科学技术的发展, 城市道路交通系统日益发达, 基于实时检测视频的车辆检
测算法已经成为当前智慧交通系统中车辆检测的主流手段。 如何实时、 高效、 准确地完成车
辆检测是目前的研究热点方向。
[0003]在车辆检测领域, 除了如SVM分类器等比较传统的机器学习算法外, 基于深度学习
的目标检测算法由于识别准确率高, 特别是在复杂场景中依然可以保持较高的识别率的优
势, 故被各类系统广泛 采用。
[0004]目前基于深度学习的目标检测算法框架有R ‑CNN系列(R ‑CNN、 Fast R‑CNN、
Faster R‑CNN)、 YOLO系列(YOLO v1、 YOLO v2、 YOLO v3、 YOLO v4)、 SSD、 Cascade R ‑CNN等。
这些框架对于检测车辆目标, 相对于之前手动设计特征然后使用SVM等分类器的方式检测
效果有了 显著提升 。 但对于硬件计算资源的要求 也有显著的提高。
[0005]上述的深度学习算法框架可以利用GPU强大的并行处理能力进行车辆检测, 但对
于视频流检测, 往往需借助OpenCV 等视频处理框架, 先将视频流解码为逐帧图像后, 再进 行
检测。 而FFmpeg框架在视频解码时调用的是CPU进行处理的, CPU 的并行处理能力相对有
限。 在对大量视频流进行并行车辆检测时, 需要CPU+GPU 配合, 先由CPU进行视频解码, 再由
GPU进行图像检测, 此时往往因CPU计算资源限制, 导致并发检测量受限, 同时GPU资源无法
得到充分利用。
[0006]GPU英文全称为Gr aphic Processing Unit, 中文翻译为 “图形处理单元 ”, 是一种
专门处理 图像运算工作的微处理器。 GPU与CPU相比有更多的处理单元和更大的内存带宽,
所以GPU有较好的计算能力, 适 合进行大量计算。
[0007]VPF全称为VideoProcessingFramework, 代表视频处理框架。 它是一组C++ 库和
Python的绑定, 可为视频处理任务提供完整的硬件加速, 例如视频解码, 编码, 转码以及GPU
加速的色彩空间和像素格式转换。 VPF相比于OpenCV来讲, 它可 以将解码的步骤全部交给
GPU, 继而能让CPU更加的高效。
[0008]Yolo算法, 其全称是You Only Look Once:Unified,Real ‑Time Object
Detection, 它仅使用一个CNN网络直接预测不同目标的类别与位置, 算法速度快, 它能够处
理实时视频流, 延迟能做到小于25毫秒。
[0009]YOLO‑v4算法是在原有YOLO目标检测架构的基础上, 采用了近些年CNN领域中最优
秀的优化策略, 从数据处理、 主干网络、 网络训练、 激活函数、 损失函数等各个方面 都有着不
同程度的优化。 YOLOv4 ‑tiny结构是YOLOv4的精简版, 属于轻量化模型, 参数只有600万相当
于原来的十分之一, 这使得检测速度提升 很大。说 明 书 1/3 页
3
CN 114758275 A
3
专利 一种基于GPU车辆视频检测方法
文档预览
中文文档
5 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:57:00上传分享