(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221071912 2.0
(22)申请日 2022.06.23
(71)申请人 成都民航空管 科技发展 有限公司
地址 610041 四川省成 都市二环路南 二段
17号
申请人 中国民用航空总局第二研究所
(72)发明人 李靓 朱志强 刘志海 杨振祠
孙瑞 吴嘉宇 白涛 葛小武
(74)专利代理 机构 北京酷爱智慧知识产权代理
有限公司 1 1514
专利代理师 胡林
(51)Int.Cl.
G06V 20/52(2022.01)
G06V 20/40(2022.01)
G06V 10/774(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06T 7/73(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于tran sformer的跨尺度目标检测方
法及系统
(57)摘要
本发明公开了一种基于tran sformer的跨尺
度目标检测方法及系统, 通过生成训练数据集,
将训练数据集中的视频图像数据作为训练样本;
设计目标函数, 训练预先建立的目标检测模型;
基于transformer的跨尺度目标检测算法, 利用
训练好的目标检测模型对待检测的图像进行检
测, 输出目标检测结果, 以确定目标位置和类别
信息。 上述方案的提出解决了真实防跑道侵入中
的跨尺度目标检测问题, 实现了提高目标检测精
度的总体目标, 进一步降低模型的误检率和漏检
率, 提升基于视频的防跑道侵入系统的可用性和
稳定性。
权利要求书3页 说明书11页 附图4页
CN 115205781 A
2022.10.18
CN 115205781 A
1.一种基于t ransformer的跨尺度目标检测方法, 其特 征在于, 所述方法包括:
生成训练数据集;
将所述训练数据集中的视频图像数据作为训练样本, 设计目标函数, 训练预先建立的
目标检测模型;
基于transformer的跨尺度目标检测算法, 利用训练好的目标检测模型对待检测的图
像进行检测, 输出目标检测结果, 以确定目标位置和类别 信息。
2.根据权利要求1所述的方法, 其特征在于, 所述生成训练数据集包括: 基于预先采集
的视频图像数据构建应用场景监控视频集, 通过整理现有公开数据以及下载爬虫数据的方
式分别建立 公开目标检测数据集和网络爬虫数据集; 并对各数据集中的视频图像数据进 行
数据标注, 构成训练数据集。
3.根据权利要求2所述的方法, 其特征在于, 所述基于预先采集的视频图像数据构建应
用场景监控视频集, 通过整理现有公开数据以及下载爬虫数据的方式分别建立公开目标检
测数据集和网络 爬虫数据集包括:
接收防跑道侵入现场摄像头拍摄的关键道口实时视频数据; 利用RTSP协议拉取视频
流, 再使用Opencv的VideoCapture包解析拉取的视频流信息, 利用VideoWriter将解析得到
的视频帧写入.mp4视频流文件, 获得应用场景监控视频集;
将跑道区域常见目标类型从现有公开数据中筛选出来, 形成面向跑道侵入应用的公开
目标检测数据集;
其中, 所述常见目标包括: 航空器、 车辆、 人员;
根据实际需求从图像检索网站搜索关键词并使用Python爬虫技术下载的相关图像, 将
通过网络爬虫搜集到的所述相关图像通过人工筛选方式进 行二次过滤, 获得网络爬虫数据
集。
4.根据权利要求1所述的方法, 其特征在于, 所述对各数据集中的视频图像数据进行数
据标注包括: 使用dar klabel标注软件, 标记应用场景监控视频集和网络爬虫数据集中的目
标所在位置, 使用标记框中心 点x坐标、 标记框中心 点y坐标、 标记框宽和高所 组成的四维向
量表示。
5.根据权利要求1所述的方法, 其特征在于, 所述预先建立的跨尺度目标检测模型包括
依次连接的主干网络、 颈 部网络和头 部网络;
所述主干网络, 用于提取高层图像特 征;
所述颈部网络分布于主干网络中的每一层, 用于从不同尺度、 不同处理阶段对主干网
络提取的特 征进行融合和再处 理, 对每个尺度分别输出处 理后的特 征;
所述头部网络与颈部网络输出的不同尺度 特征一一对应, 用于根据颈部网络提取到的
特征, 确定目标检测结果。
6.根据权利要求1所述的方法, 其特征在于, 所述设计目标函数具体包括: 分别以检测
框损失、 置信度损失和目标类别损失最小为目标设计目标函数; 其中,
所述检测框损失通过计算检测框与真值之间的距离获得;
所述置信度损失通过计算检测目标的可信度获得;
所述目标类别损失是基于交叉熵损失函数评估 估计类别和真值之间的距离获得。
7.根据权利要求1所述的方法, 其特征在于, 所述确定目标检测结果之后还包括: 筛选权 利 要 求 书 1/3 页
2
CN 115205781 A
2头部网络输出的目标检测结果, 以实现检测框的非极大值抑制;
所述筛选头部网络输出的目标检测结果具体包括: 遍历所有检测框, 若任意两个检测
框之间存在交叠, 则计算两个检测框之间的交并比; 当交并比大于阈值T,则认为这两个检
测框属于同一目标, 保留置信度较大的检测框; 通过循环对所有检测框的非极大值抑制, 并
输出最终检测结果。
8.一种基于transformer的跨尺度目标检测系统, 其特征在于, 包括关键道口监控摄像
头、 视觉处理服务器、 防跑道侵入显示设备、 关键道口视频流数据处理模块、 transformer推
理系统和防跑道侵入融合显示系统;
其中, 所述关键道口监控摄 像头, 用于采集、 编码并推送关键道口实时视频 数据;
视觉处理服务器, 用于运行核心视觉处理算法, 对关键道口视频流数据中的目标实现
定位和识别; 其中, 所述核心视 觉处理算法为t ransformer推理方法;
防跑道侵入显示设备, 用于显示关键道口实时视频数据, 同时显示跑道侵入事件的目
标位置和类别 信息。
9.根据权利要求8所述的系统, 其特征在于, 所述关键道口监控摄像头包括设置于摄像
头外层的防护罩和相机加热装置;
所述视觉处理服务器包括: 联网模块、 高性能计算模块;
所述联网模块, 用于前端摄 像头和管制终端之间的数据传输;
所述高性能计算模块, 用于对输入视频 数据进行推理计算;
所述防跑道侵入显示设备包括: 大屏显示模块和交 互显示模块;
所述大屏显示模块, 用于 显示机场内所有被监控道口实时视频及叠加信号;
所述交互显示模块, 用于为管制员显示管制交 互界面;
所述关键道口视频流数据处 理模块包括: 拉流单 元和解码单 元;
所述拉流单 元, 用于使用RTS P协议拉取摄 像头采集到的视频流数据;
所述解码单元, 用于采用F FMPEG内置解码算法, 将拉取到的视频流 解码成视频帧;
所述transformer推理系统包括: 视频帧预处理单元、 transformer检测推理单元和结
果预测单 元;
所述视频帧预处理单元, 用于将解码单元, 提取的单帧视频数据进行预处理, 使用双线
性插值方法将原 始视频帧归一 化到指定分辨 率;
所述transformer检测推理单元, 用于将预处理结果输入transformer跨尺度目标检测
模型, 输出目标检测结果, 包括: 检测框、 置信度和目标类别 信息;
所述结果预测单元, 用于筛选目标检测结果; 如果两个筛选结果之间存在交叠, 则计算
二者之间的交并 比, 当交并 比大于某预先设定阈值T,则认为这两个检测框属于同一个目
标, 因此将置信度较小的检测框删掉; 通过不断循环最 终实现对交叠框的非极大值抑制, 并
输出最终检测结果;
所述防跑道侵入融合显示系统包括: 防跑道侵入预警告警模块和多源数据融合显示模
块;
所述防跑道侵入预警告警模块, 用于结合跨尺度目标检测方法输出的目标位置和类别
信息, 估计目标在监控道口区域的位置;
其中, 所述类别 信息包括 航空器、 车辆和人员;权 利 要 求 书 2/3 页
3
CN 115205781 A
3
专利 一种基于transformer的跨尺度目标检测方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:57:02上传分享