(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210693444.2
(22)申请日 2022.06.17
(71)申请人 深圳市万物云科技有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 苏红梅 吴远津 陈嘉维
(74)专利代理 机构 深圳市精英专利事务所
44242
专利代理师 谭穗平
(51)Int.Cl.
G06V 20/52(2022.01)
G06F 40/279(2020.01)
G06N 3/04(2006.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)G06V 10/82(2022.01)
G06V 30/413(2022.01)
(54)发明名称
一种基于多模态学习的目标识别检测方法
及相关组件
(57)摘要
本发明公开了一种基于多模态学习的目标
识别检测方法及相关组件。 该方法包括: 采集被
测场景中含有车辆的 图像集; 利用图像集对DETR
网络进行训练, 得到DETR模型; 通过DETR模型对
待测图像进行预测, 输出待测图像中车辆的分类
结果; 对所述初步分类结果为目标类别的待测图
像进行车辆文本检测得到文本信息; 将文本信息
在预设语料库中进行匹配, 得到文本信息对应的
车辆类别。 本发 明目标检测的方式对 出入口的车
进行大的分类并输出初步分类结果, 然后通过文
本检测方式将车梁上的文字提取出来再通过自
然语言对文字进行理解后刷选出真的目标类型
的车辆, 具有识别精准的优点。
权利要求书2页 说明书7页 附图4页
CN 114913487 A
2022.08.16
CN 114913487 A
1.一种基于多模态学习的目标识别检测方法, 其特 征在于, 包括:
采集被测场景中含有车辆的图像集;
利用所述图像集对DETR网络进行训练, 得到DETR模型;
通过所述DETR模型对待测图像进行 预测, 输出 所述待测图像中车辆的初步分类结果;
对所述初步分类结果 为目标类别的待测图像进行 车辆文本检测得到文本信息;
将所述文本信 息在预设语料库中进行匹配, 得到所述文本信 息对应的车辆类别并输出
为最终分类结果。
2.根据权利要求1所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述采集
被测场景中含有车辆的图像集, 包括:
通过视频抽帧采集被测场景的图像;
对采集的图像进行 数据清洗, 筛 选含有车辆的图像并进行 标注, 得到图像集;
划分所述图像集, 得到训练集和验证集。
3.根据权利要求2所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述利用
所述图像集对DETR网络进行训练, 得到DETR模型, 包括:
将所述训练集中的图像输入所述DETR网络中的特征提取模块进行尺寸变换和特征提
取, 输出对应的特 征图;
对所述特 征图进行 卷积降维处 理, 得到图片特 征序列;
并对所述特 征图进行位置编码得到位置编码矩阵;
将所述图片特征序列和位置编码矩阵输入所述DETR网络中的编码 ‑解码模块进行全局
注意力和映射分析, 得到多个to ken序列;
将所述token序列输入所述DETR网络中的前馈神经网络模块进行分类预测, 输出多个
预测框的位置坐标和类别分数。
4.根据权利要求3所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述利用
所述图像集对DETR网络进行训练, 得到DETR模型, 还 包括:
获取真实结果与预测结果的映射关系:
其中,
表示真实结果yi到对应预测结果
的映射关系, σ(i)表示第i个真实框对应的
预测框的索引; Lmatch表示匹配函数, 用于最小化yi和
的距离; ΣN表示所有真值与对应预
测值的排列;
其中, i表示 ground truth中的第i个元素; ci表示ground truth中的第i个cl ass; σ(i)
表示ground truth第i个元素对应于predictions中的index;
表示predictions中第σ
(i)个probs;
表示predictions中的第σ(i)个bbox, 然后使用Hungarian算法在ΣN找到
Lmatch最小的组合;
根据映射关系使用Hung arian算法计算匈 牙利损失:
权 利 要 求 书 1/2 页
2
CN 114913487 A
2其中,
表示类别损失,
表示预测框损失; N表示数量, N
大于图像中目标的数量;
表示IOU损失函数,
表示L1损失函
数, λiou, λL1∈R表示超参数。
5.根据权利要求4所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述利用
所述图像集对DETR网络进行训练, 得到DETR模型, 还 包括:
对DETR网络进行迭代训练并达 到预设次数后, 输出训练后的DETR模型;
将所述图像集中的验证集输入训练后的DETR模型进行验证, 输出训练结果指标。
6.根据权利要求1所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述对所
述初步分类结果 为目标类别的待测图像进行 车辆文本检测得到文本信息, 包括:
若初步分类结果为目标类别, 则通过PP ‑OCR识别系统检测并框取待测图像车辆车身上
的文本;
对框取的文本进行 校正;
对校正后的文本进行识别并得到文本信息 。
7.根据权利要求1所述的基于多模态学习的目标识别检测方法, 其特征在于, 所述将所
述文本信息在预设语料库中进 行匹配, 得到所述文本信息对应的车辆类别并输出为最终分
类结果, 包括:
向量化所述文本信息, 得到所述文本信息的词向量表示;
将所述词向量表示与 所述预设语料库中的语料向量进行相似度匹配, 根据匹配结果获
取所述词向量表示对应的车辆类别。
8.一种基于多模态学习的目标识别检测装置, 其特 征在于, 包括:
采集单元, 用于采集被测场景中含有车辆的图像集;
训练单元, 用于利用所述图像集对DETR网络进行训练, 得到DETR模型;
第一分类单元, 用于通过所述DETR模型对待测图像进行预测, 输出所述待测图像中车
辆的初步分类结果;
文本检测单元, 用于对所述初步分类结果为目标类别的待测图像进行车辆文本检测得
到文本信息;
第二分类单元, 用于将所述文本信息在预设语料库中进行匹配, 得到所述文本信息对
应的车辆类别并输出为 最终分类结果。
9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7
中任一项所述的基于多模态学习的目标识别检测方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程
序, 所述计算机程序当被处理器执行时使 所述处理器执行如权利要求 1至7任一项 所述的基
于多模态学习的目标识别检测方法。权 利 要 求 书 2/2 页
3
CN 114913487 A
3
专利 一种基于多模态学习的目标识别检测方法及相关组件
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:57:35上传分享