专利 一种基于多模态学习的目标识别检测方法及相关组件

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210693444.2 (22)申请日 2022.06.17 (71)申请人深圳市万物云科技有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室 (72)发明人苏红梅　吴远津　陈嘉维　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师谭穗平 (51)Int.Cl. G06V 20/52(2022.01) G06F 40/279(2020.01) G06N 3/04(2006.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06V 30/413(2022.01) (54)发明名称一种基于多模态学习的目标识别检测方法及相关组件 (57)摘要本发明公开了一种基于多模态学习的目标识别检测方法及相关组件。该方法包括：采集被测场景中含有车辆的图像集；利用图像集对DETR 网络进行训练，得到DETR模型；通过DETR模型对待测图像进行预测，输出待测图像中车辆的分类结果；对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；将文本信息在预设语料库中进行匹配，得到文本信息对应的车辆类别。本发明目标检测的方式对出入口的车进行大的分类并输出初步分类结果，然后通过文本检测方式将车梁上的文字提取出来再通过自然语言对文字进行理解后刷选出真的目标类型的车辆，具有识别精准的优点。权利要求书2页说明书7页附图4页 CN 114913487 A 2022.08.16 CN 114913487 A 1.一种基于多模态学习的目标识别检测方法，其特征在于，包括：采集被测场景中含有车辆的图像集；利用所述图像集对DETR网络进行训练，得到DETR模型；通过所述DETR模型对待测图像进行预测，输出所述待测图像中车辆的初步分类结果；对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；将所述文本信息在预设语料库中进行匹配，得到所述文本信息对应的车辆类别并输出为最终分类结果。 2.根据权利要求1所述的基于多模态学习的目标识别检测方法，其特征在于，所述采集被测场景中含有车辆的图像集，包括：通过视频抽帧采集被测场景的图像；对采集的图像进行数据清洗，筛选含有车辆的图像并进行标注，得到图像集；划分所述图像集，得到训练集和验证集。 3.根据权利要求2所述的基于多模态学习的目标识别检测方法，其特征在于，所述利用所述图像集对DETR网络进行训练，得到DETR模型，包括：将所述训练集中的图像输入所述DETR网络中的特征提取模块进行尺寸变换和特征提取，输出对应的特征图；对所述特征图进行卷积降维处理，得到图片特征序列；并对所述特征图进行位置编码得到位置编码矩阵；将所述图片特征序列和位置编码矩阵输入所述DETR网络中的编码 ‑解码模块进行全局注意力和映射分析，得到多个to ken序列；将所述token序列输入所述DETR网络中的前馈神经网络模块进行分类预测，输出多个预测框的位置坐标和类别分数。 4.根据权利要求3所述的基于多模态学习的目标识别检测方法，其特征在于，所述利用所述图像集对DETR网络进行训练，得到DETR模型，还包括：获取真实结果与预测结果的映射关系：其中，表示真实结果yi到对应预测结果的映射关系， σ(i)表示第i个真实框对应的预测框的索引； Lmatch表示匹配函数，用于最小化yi和的距离； ΣN表示所有真值与对应预测值的排列；其中， i表示 ground truth中的第i个元素； ci表示ground truth中的第i个cl ass； σ(i) 表示ground truth第i个元素对应于predictions中的index；表示predictions中第σ (i)个probs；表示predictions中的第σ(i)个bbox，然后使用Hungarian算法在ΣN找到 Lmatch最小的组合；根据映射关系使用Hung arian算法计算匈牙利损失：权　利　要　求　书 1/2 页 2 CN 114913487 A 2其中，表示类别损失，表示预测框损失； N表示数量， N 大于图像中目标的数量；表示IOU损失函数，表示L1损失函数， λiou, λL1∈R表示超参数。 5.根据权利要求4所述的基于多模态学习的目标识别检测方法，其特征在于，所述利用所述图像集对DETR网络进行训练，得到DETR模型，还包括：对DETR网络进行迭代训练并达到预设次数后，输出训练后的DETR模型；将所述图像集中的验证集输入训练后的DETR模型进行验证，输出训练结果指标。 6.根据权利要求1所述的基于多模态学习的目标识别检测方法，其特征在于，所述对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息，包括：若初步分类结果为目标类别，则通过PP ‑OCR识别系统检测并框取待测图像车辆车身上的文本；对框取的文本进行校正；对校正后的文本进行识别并得到文本信息。 7.根据权利要求1所述的基于多模态学习的目标识别检测方法，其特征在于，所述将所述文本信息在预设语料库中进行匹配，得到所述文本信息对应的车辆类别并输出为最终分类结果，包括：向量化所述文本信息，得到所述文本信息的词向量表示；将所述词向量表示与所述预设语料库中的语料向量进行相似度匹配，根据匹配结果获取所述词向量表示对应的车辆类别。 8.一种基于多模态学习的目标识别检测装置，其特征在于，包括：采集单元，用于采集被测场景中含有车辆的图像集；训练单元，用于利用所述图像集对DETR网络进行训练，得到DETR模型；第一分类单元，用于通过所述DETR模型对待测图像进行预测，输出所述待测图像中车辆的初步分类结果；文本检测单元，用于对所述初步分类结果为目标类别的待测图像进行车辆文本检测得到文本信息；第二分类单元，用于将所述文本信息在预设语料库中进行匹配，得到所述文本信息对应的车辆类别并输出为最终分类结果。 9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7 中任一项所述的基于多模态学习的目标识别检测方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求 1至7任一项所述的基于多模态学习的目标识别检测方法。权　利　要　求　书 2/2 页 3 CN 114913487 A 3

专利 一种基于多模态学习的目标识别检测方法及相关组件

专利一种基于多模态学习的目标识别检测方法及相关组件