专利 一种基于GPU车辆视频检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210382224.8 (22)申请日 2022.04.13 (71)申请人浪潮通信信息系统有限公司地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S0 6号楼 (72)发明人袁鑫　许丙健　张文宜　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师阚恭勇 (51)Int.Cl. G06V 20/40(2022.01) G06K 9/62(2022.01) G06V 20/52(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) (54)发明名称一种基于GPU车辆视频检测方法 (57)摘要本发明提供一种基于GPU车辆视频检测方法，属于车辆图像识别技术领域，本发明包括实时视频流解码、格式及分辨率转换、目标检测模型训练及检测。本发明通过使用GPU进行视频解码和检测，能够满足对大量视频图像进行实时、并发车辆检测的需求。权利要求书1页说明书3页 CN 114758275 A 2022.07.15 CN 114758275 A 1.一种基于GPU车辆视频检测方法，其特征在于，包括如下步骤： (1)使用VP F框架中的PyNvCodec模块中的PyNvDecoder方法，对监控摄像机输出的原始视频流进行解码，得到一帧图像数据；要求图像原始分辨率不低于19 20*1080。 (2)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(1)中的图像数据进行格式转换，转换为YUV420数据格式； (3)使用VP F框架中的PyNvCodec模块中的PySurfaceResizer方法，将步骤(2)转换后的图像大小修改为1280 *720分辨率； (4)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法，将步骤(3)中的图像数据进行格式转换，转换为RGB数据格式； (5)对步骤(4)中图像中的车辆进行位置和类型标注，纳入卷积神经网络模型进行目标检测训练，最终输出针对车辆识别的目标检测模型； (6)加载目标检测模型，对步骤(4)中拍摄的图像进行目标检测识别，识别分辨率为 416*416，置信度阈值设置为0.45，识别并获取图像中的车辆位置及对应车辆类型。 2.根据利要求1所述的方法，其特征在于，所述步骤(1)中，使用VPF框架中的PyNvCodec模块中的PyNvDecoder进行视频解码，此方式将使用GPU 进行识别解码。 3.根据利要求1所述的方法，其特征在于，所述步骤(2)中，使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行格式转换，此方式将使用GPU 进行处理。 4.根据利要求1所述的方法，其特征在于，所述步骤(3)中，使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法调整图像分辨率，此方式将使用GPU 进行处理。 5.根据利要求1所述的方法，其特征在于，所述步骤(4)中，使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行格式转换，此方式将使用GPU 进行处理。 6.根据利要求1所述的方法，其特征在于，步骤5)所述的标注、训练动作，仅在无目标检测模型或模型需要优化时执行。 7.根据利要求1或6所述的方法，其特征在于，所述步骤(5)中，使用基于Darknet实现的yolov4 ‑tiny检测网络进行训练，训练使用 4800张分辨率为1280*720的车辆样例图片，训练时网络图像分辨率为608*608，训练轮次为 20万轮。 8.根据利要求1所述的方法，其特征在于，所述步骤(6)中，识别分辨率为416*416，置信度阈值设置为0.45 。权　利　要　求　书 1/1 页 2 CN 114758275 A 2一种基于GPU车辆视频检测方法技术领域 [0001]本发明涉及车辆图像识别、视频图像解码领域，尤其涉及一种基于GPU车辆视频检测方法。背景技术 [0002]随着科学技术的发展，城市道路交通系统日益发达，基于实时检测视频的车辆检测算法已经成为当前智慧交通系统中车辆检测的主流手段。如何实时、高效、准确地完成车辆检测是目前的研究热点方向。 [0003]在车辆检测领域，除了如SVM分类器等比较传统的机器学习算法外，基于深度学习的目标检测算法由于识别准确率高，特别是在复杂场景中依然可以保持较高的识别率的优势，故被各类系统广泛采用。 [0004]目前基于深度学习的目标检测算法框架有R ‑CNN系列(R ‑CNN、 Fast R‑CNN、 Faster R‑CNN)、 YOLO系列(YOLO v1、 YOLO v2、 YOLO v3、 YOLO v4)、 SSD、 Cascade R ‑CNN等。这些框架对于检测车辆目标，相对于之前手动设计特征然后使用SVM等分类器的方式检测效果有了显著提升。但对于硬件计算资源的要求也有显著的提高。 [0005]上述的深度学习算法框架可以利用GPU强大的并行处理能力进行车辆检测，但对于视频流检测，往往需借助OpenCV 等视频处理框架，先将视频流解码为逐帧图像后，再进行检测。而FFmpeg框架在视频解码时调用的是CPU进行处理的， CPU 的并行处理能力相对有限。在对大量视频流进行并行车辆检测时，需要CPU+GPU 配合，先由CPU进行视频解码，再由 GPU进行图像检测，此时往往因CPU计算资源限制，导致并发检测量受限，同时GPU资源无法得到充分利用。 [0006]GPU英文全称为Gr aphic Processing Unit，中文翻译为 “图形处理单元 ”，是一种专门处理图像运算工作的微处理器。 GPU与CPU相比有更多的处理单元和更大的内存带宽，所以GPU有较好的计算能力，适合进行大量计算。 [0007]VPF全称为VideoProcessingFramework，代表视频处理框架。它是一组C++ 库和 Python的绑定，可为视频处理任务提供完整的硬件加速，例如视频解码，编码，转码以及GPU 加速的色彩空间和像素格式转换。 VPF相比于OpenCV来讲，它可以将解码的步骤全部交给 GPU，继而能让CPU更加的高效。 [0008]Yolo算法，其全称是You Only Look Once:Unified,Real ‑Time Object Detection，它仅使用一个CNN网络直接预测不同目标的类别与位置，算法速度快，它能够处理实时视频流，延迟能做到小于25毫秒。 [0009]YOLO‑v4算法是在原有YOLO目标检测架构的基础上，采用了近些年CNN领域中最优秀的优化策略，从数据处理、主干网络、网络训练、激活函数、损失函数等各个方面都有着不同程度的优化。 YOLOv4 ‑tiny结构是YOLOv4的精简版，属于轻量化模型，参数只有600万相当于原来的十分之一，这使得检测速度提升很大。说　明　书 1/3 页 3 CN 114758275 A 3

专利 一种基于GPU车辆视频检测方法

专利一种基于GPU车辆视频检测方法