专利 一种基于transformer的跨尺度目标检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221071912 2.0 (22)申请日 2022.06.23 (71)申请人成都民航空管科技发展有限公司地址 610041 四川省成都市二环路南二段 17号申请人中国民用航空总局第二研究所 (72)发明人李靓　朱志强　刘志海　杨振祠　孙瑞　吴嘉宇　白涛　葛小武　 (74)专利代理机构北京酷爱智慧知识产权代理有限公司 1 1514 专利代理师胡林 (51)Int.Cl. G06V 20/52(2022.01) G06V 20/40(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于tran sformer的跨尺度目标检测方法及系统 (57)摘要本发明公开了一种基于tran sformer的跨尺度目标检测方法及系统，通过生成训练数据集，将训练数据集中的视频图像数据作为训练样本；设计目标函数，训练预先建立的目标检测模型；基于transformer的跨尺度目标检测算法，利用训练好的目标检测模型对待检测的图像进行检测，输出目标检测结果，以确定目标位置和类别信息。上述方案的提出解决了真实防跑道侵入中的跨尺度目标检测问题，实现了提高目标检测精度的总体目标，进一步降低模型的误检率和漏检率，提升基于视频的防跑道侵入系统的可用性和稳定性。权利要求书3页说明书11页附图4页 CN 115205781 A 2022.10.18 CN 115205781 A 1.一种基于t ransformer的跨尺度目标检测方法，其特征在于，所述方法包括：生成训练数据集；将所述训练数据集中的视频图像数据作为训练样本，设计目标函数，训练预先建立的目标检测模型；基于transformer的跨尺度目标检测算法，利用训练好的目标检测模型对待检测的图像进行检测，输出目标检测结果，以确定目标位置和类别信息。 2.根据权利要求1所述的方法，其特征在于，所述生成训练数据集包括：基于预先采集的视频图像数据构建应用场景监控视频集，通过整理现有公开数据以及下载爬虫数据的方式分别建立公开目标检测数据集和网络爬虫数据集；并对各数据集中的视频图像数据进行数据标注，构成训练数据集。 3.根据权利要求2所述的方法，其特征在于，所述基于预先采集的视频图像数据构建应用场景监控视频集，通过整理现有公开数据以及下载爬虫数据的方式分别建立公开目标检测数据集和网络爬虫数据集包括：接收防跑道侵入现场摄像头拍摄的关键道口实时视频数据；利用RTSP协议拉取视频流，再使用Opencv的VideoCapture包解析拉取的视频流信息，利用VideoWriter将解析得到的视频帧写入.mp4视频流文件，获得应用场景监控视频集；将跑道区域常见目标类型从现有公开数据中筛选出来，形成面向跑道侵入应用的公开目标检测数据集；其中，所述常见目标包括：航空器、车辆、人员；根据实际需求从图像检索网站搜索关键词并使用Python爬虫技术下载的相关图像，将通过网络爬虫搜集到的所述相关图像通过人工筛选方式进行二次过滤，获得网络爬虫数据集。 4.根据权利要求1所述的方法，其特征在于，所述对各数据集中的视频图像数据进行数据标注包括：使用dar klabel标注软件，标记应用场景监控视频集和网络爬虫数据集中的目标所在位置，使用标记框中心点x坐标、标记框中心点y坐标、标记框宽和高所组成的四维向量表示。 5.根据权利要求1所述的方法，其特征在于，所述预先建立的跨尺度目标检测模型包括依次连接的主干网络、颈部网络和头部网络；所述主干网络，用于提取高层图像特征；所述颈部网络分布于主干网络中的每一层，用于从不同尺度、不同处理阶段对主干网络提取的特征进行融合和再处理，对每个尺度分别输出处理后的特征；所述头部网络与颈部网络输出的不同尺度特征一一对应，用于根据颈部网络提取到的特征，确定目标检测结果。 6.根据权利要求1所述的方法，其特征在于，所述设计目标函数具体包括：分别以检测框损失、置信度损失和目标类别损失最小为目标设计目标函数；其中，所述检测框损失通过计算检测框与真值之间的距离获得；所述置信度损失通过计算检测目标的可信度获得；所述目标类别损失是基于交叉熵损失函数评估估计类别和真值之间的距离获得。 7.根据权利要求1所述的方法，其特征在于，所述确定目标检测结果之后还包括：筛选权　利　要　求　书 1/3 页 2 CN 115205781 A 2头部网络输出的目标检测结果，以实现检测框的非极大值抑制；所述筛选头部网络输出的目标检测结果具体包括：遍历所有检测框，若任意两个检测框之间存在交叠，则计算两个检测框之间的交并比；当交并比大于阈值T,则认为这两个检测框属于同一目标，保留置信度较大的检测框；通过循环对所有检测框的非极大值抑制，并输出最终检测结果。 8.一种基于transformer的跨尺度目标检测系统，其特征在于，包括关键道口监控摄像头、视觉处理服务器、防跑道侵入显示设备、关键道口视频流数据处理模块、 transformer推理系统和防跑道侵入融合显示系统；其中，所述关键道口监控摄像头，用于采集、编码并推送关键道口实时视频数据；视觉处理服务器，用于运行核心视觉处理算法，对关键道口视频流数据中的目标实现定位和识别；其中，所述核心视觉处理算法为t ransformer推理方法；防跑道侵入显示设备，用于显示关键道口实时视频数据，同时显示跑道侵入事件的目标位置和类别信息。 9.根据权利要求8所述的系统，其特征在于，所述关键道口监控摄像头包括设置于摄像头外层的防护罩和相机加热装置；所述视觉处理服务器包括：联网模块、高性能计算模块；所述联网模块，用于前端摄像头和管制终端之间的数据传输；所述高性能计算模块，用于对输入视频数据进行推理计算；所述防跑道侵入显示设备包括：大屏显示模块和交互显示模块；所述大屏显示模块，用于显示机场内所有被监控道口实时视频及叠加信号；所述交互显示模块，用于为管制员显示管制交互界面；所述关键道口视频流数据处理模块包括：拉流单元和解码单元；所述拉流单元，用于使用RTS P协议拉取摄像头采集到的视频流数据；所述解码单元，用于采用F FMPEG内置解码算法，将拉取到的视频流解码成视频帧；所述transformer推理系统包括：视频帧预处理单元、 transformer检测推理单元和结果预测单元；所述视频帧预处理单元，用于将解码单元，提取的单帧视频数据进行预处理，使用双线性插值方法将原始视频帧归一化到指定分辨率；所述transformer检测推理单元，用于将预处理结果输入transformer跨尺度目标检测模型，输出目标检测结果，包括：检测框、置信度和目标类别信息；所述结果预测单元，用于筛选目标检测结果；如果两个筛选结果之间存在交叠，则计算二者之间的交并比，当交并比大于某预先设定阈值T,则认为这两个检测框属于同一个目标，因此将置信度较小的检测框删掉；通过不断循环最终实现对交叠框的非极大值抑制，并输出最终检测结果；所述防跑道侵入融合显示系统包括：防跑道侵入预警告警模块和多源数据融合显示模块；所述防跑道侵入预警告警模块，用于结合跨尺度目标检测方法输出的目标位置和类别信息，估计目标在监控道口区域的位置；其中，所述类别信息包括航空器、车辆和人员；权　利　要　求　书 2/3 页 3 CN 115205781 A 3

专利 一种基于transformer的跨尺度目标检测方法及系统

专利一种基于transformer的跨尺度目标检测方法及系统