国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210382224.8 (22)申请日 2022.04.13 (71)申请人 浪潮通信 信息系统有限公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园S0 6号楼 (72)发明人 袁鑫 许丙健 张文宜  (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 阚恭勇 (51)Int.Cl. G06V 20/40(2022.01) G06K 9/62(2022.01) G06V 20/52(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) (54)发明名称 一种基于GPU车辆 视频检测方法 (57)摘要 本发明提供一种基于GPU车辆视频检测方 法, 属于车辆图像识别技术领域, 本发明包括实 时视频流解码、 格式及分辨率转换、 目标检测模 型训练及检测。 本发明通过使用GPU进行视频解 码和检测, 能够满足对大量视频图像进行实时、 并发车辆 检测的需求。 权利要求书1页 说明书3页 CN 114758275 A 2022.07.15 CN 114758275 A 1.一种基于GPU车辆 视频检测方法, 其特 征在于, 包括如下步骤: (1)使用VP F框架中的PyNvCodec模块中 的PyNvDecoder方法, 对监控摄像机输出的原始 视频流进行解码, 得到一帧图像数据; 要求图像原 始分辨率不低于19 20*1080。 (2)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法, 将步骤(1)中的图 像数据进行格式转换, 转换为YUV420数据格式; (3)使用VP F框架中的PyNvCodec模块中的PySurfaceResizer方法, 将步骤(2)转换后的 图像大小修改为1280 *720分辨 率; (4)使用VPF框架中的PyNvCodec模块中的PySurfaceConverter方法, 将步骤(3)中的图 像数据进行格式转换, 转换为RGB数据格式; (5)对步骤(4)中图像中的车辆进行位置和类型标注, 纳入卷积神经网络模型进行目标 检测训练, 最终输出针对车辆识别的目标检测模型; (6)加载目标检测模型, 对步骤(4)中拍摄的图像进行目标检测识别, 识别分辨率为 416*416, 置信度阈值设置为0.45, 识别并获取图像中的车辆位置及对应车辆类型。 2.根据利要求1所述的方法, 其特 征在于, 所述步骤(1)中, 使用VPF框架中的PyNvCodec模块中的PyNvDecoder进行视频解码, 此 方式将使用GPU 进行识别解码。 3.根据利要求1所述的方法, 其特 征在于, 所述步骤(2)中, 使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行 格式转换, 此 方式将使用GPU 进行处理。 4.根据利要求1所述的方法, 其特 征在于, 所述步骤(3)中, 使用VPF框架中的PyNvCodec模块中的PySurfaceResizer方法调整图 像分辨率, 此方式将使用GPU 进行处理。 5.根据利要求1所述的方法, 其特 征在于, 所述步骤(4)中, 使用VPF框架中的PyNvCodec模块中的PySur faceConverter方法进行 格式转换, 此 方式将使用GPU 进行处理。 6.根据利要求1所述的方法, 其特 征在于, 步骤5)所述的标注、 训练动作, 仅在无目标检测模型或模型需要优化时执 行。 7.根据利要求1或6所述的方法, 其特 征在于, 所述步骤(5)中, 使用基于Darknet实现的yolov4 ‑tiny检测网络进行训练, 训练使用 4800张分辨率为1280*720的车辆样例图片, 训练时网络图像 分辨率为608*608, 训练轮次为 20万轮。 8.根据利要求1所述的方法, 其特 征在于, 所述步骤(6)中, 识别分辨 率为416*416, 置信度阈值设置为0.45 。权 利 要 求 书 1/1 页 2 CN 114758275 A 2一种基于GPU车辆视频检测方 法 技术领域 [0001]本发明涉及车辆图像识别、 视频图像解码领域, 尤其涉及一种基于GPU车辆视频检 测方法。 背景技术 [0002]随着科学技术的发展, 城市道路交通系统日益发达, 基于实时检测视频的车辆检 测算法已经成为当前智慧交通系统中车辆检测的主流手段。 如何实时、 高效、 准确地完成车 辆检测是目前的研究热点方向。 [0003]在车辆检测领域, 除了如SVM分类器等比较传统的机器学习算法外, 基于深度学习 的目标检测算法由于识别准确率高, 特别是在复杂场景中依然可以保持较高的识别率的优 势, 故被各类系统广泛 采用。 [0004]目前基于深度学习的目标检测算法框架有R ‑CNN系列(R ‑CNN、 Fast  R‑CNN、  Faster R‑CNN)、 YOLO系列(YOLO  v1、 YOLO v2、 YOLO v3、 YOLO v4)、 SSD、 Cascade R ‑CNN等。 这些框架对于检测车辆目标, 相对于之前手动设计特征然后使用SVM等分类器的方式检测 效果有了 显著提升 。 但对于硬件计算资源的要求 也有显著的提高。 [0005]上述的深度学习算法框架可以利用GPU强大的并行处理能力进行车辆检测, 但对 于视频流检测, 往往需借助OpenCV 等视频处理框架, 先将视频流解码为逐帧图像后, 再进 行 检测。 而FFmpeg框架在视频解码时调用的是CPU进行处理的, CPU  的并行处理能力相对有 限。 在对大量视频流进行并行车辆检测时, 需要CPU+GPU  配合, 先由CPU进行视频解码, 再由 GPU进行图像检测, 此时往往因CPU计算资源限制, 导致并发检测量受限, 同时GPU资源无法 得到充分利用。 [0006]GPU英文全称为Gr aphic Processing  Unit, 中文翻译为 “图形处理单元 ”, 是一种 专门处理 图像运算工作的微处理器。 GPU与CPU相比有更多的处理单元和更大的内存带宽, 所以GPU有较好的计算能力, 适 合进行大量计算。 [0007]VPF全称为VideoProcessingFramework, 代表视频处理框架。 它是一组C++  库和 Python的绑定, 可为视频处理任务提供完整的硬件加速, 例如视频解码, 编码, 转码以及GPU 加速的色彩空间和像素格式转换。 VPF相比于OpenCV来讲, 它可 以将解码的步骤全部交给 GPU, 继而能让CPU更加的高效。 [0008]Yolo算法, 其全称是You  Only Look Once:Unified,Real ‑Time Object Detection, 它仅使用一个CNN网络直接预测不同目标的类别与位置, 算法速度快, 它能够处 理实时视频流, 延迟能做到小于25毫秒。 [0009]YOLO‑v4算法是在原有YOLO目标检测架构的基础上, 采用了近些年CNN领域中最优 秀的优化策略, 从数据处理、 主干网络、 网络训练、 激活函数、 损失函数等各个方面 都有着不 同程度的优化。 YOLOv4 ‑tiny结构是YOLOv4的精简版, 属于轻量化模型, 参数只有600万相当 于原来的十分之一, 这使得检测速度提升 很大。说 明 书 1/3 页 3 CN 114758275 A 3

.PDF文档 专利 一种基于GPU车辆视频检测方法

文档预览
中文文档 5 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共5页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于GPU车辆视频检测方法 第 1 页 专利 一种基于GPU车辆视频检测方法 第 2 页 专利 一种基于GPU车辆视频检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:57:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。