(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210413610.9
(22)申请日 2022.04.14
(71)申请人 山东大学
地址 250199 山东省济南市历城区山大南
路27号
(72)发明人 翟超 倪志祥 李玉军
(74)专利代理 机构 济南金迪知识产权代理有限
公司 37219
专利代理师 杨树云
(51)Int.Cl.
G06V 20/52(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于多维传感数据与监控视频多模异
构融合的行为识别方法及系统
(57)摘要
本发明涉及一种基于多维传感数据与监控
视频多模异构融合的行为识别方法及系统, 包
括: 在输入端, 对预处理后的多维传感数据和监
控视频分别转换为Tokens序列; 在特征融合部
分, 将多维传感数据的T okens序列输入至跨模态
Transformer模型, 得到多维传感数据的特征
Tokens序列; 再将监控视频的T okens序列及多维
传感数据的特征Tokens序列输入至瓶颈
Transformer模型中进 一步融合; 在输出端, 将三
种类别向量取出并输入到线性层, 将结果进行平
均得到最终的异常行为识别结果。 本发明有助于
特定场所及时精准地检测特定人员的异常行为
并发出警报, 保障特定人员的人身安全及健康,
减少异常突发事 件的损失。
权利要求书4页 说明书14页 附图8页
CN 114973120 A
2022.08.30
CN 114973120 A
1.一种基于多维传感数据与监控视频多模异构融合的行为识别方法, 其特征在于, 包
括:
将采集到的多维传感数据和监控视频输入训练好的行为识别模型中进行异常行为识
别, 具体包括:
在输入端, 对预处理后的多维传感数据和监控视频分别转换为Tokens序列; 在特征融
合部分, 将多维传感数据的Tokens序列输入至跨模态Transformer模 型中, 得到多维传感数
据的特征Tokens序列; 再将监控视频的Tokens序列及 多维传感数据的特征Tokens序列输入
至瓶颈Transformer模型中, 进行多模异构数据的进一步融合; 在输出端, 从瓶颈
Transformer模型的输出中取出三种类别向量并输入到线性层, 将Softmax之后的结果进行
平均得到最终的异常行为识别结果;
进一步优选的, 多维传感数据包括 生理传感数据、 行为传感数据、 环境传感数据。
2.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别
方法, 其特征在于, 对采集的多维传感数据进行预处理并转换为特征Tokens序列, 是指: 对
采集的多维传感数据进行一维卷积及位置编码, 具体包括:
首先, 对多维传感数据进行去噪及异常点删除, 并对缺失值进行插补, 对数据进行规范
化;
然后, 通过不同核尺寸大小的一维时间卷积提取不同采样率的多维传感数据的时间特
征, 将来自多种模态不同维度的时间特 征投射到相同的维度;
最后, 通过位置编码, 使得多维传感数据携带位置信息;
进一步优选的, 对采集的监控视频进行预处理并转换为特征Tokens序列, 是指: 对采集
的监控视频进行渐进位置采样, 具体包括: 将监控视频分成K 段, 每段随机取一帧;
依次将视频帧通过渐进采样模块, 以迭代的方式根据图像内容自适应调整采样位置,
最终获得监控视频的特 征Tokens序列。
3.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别
方法, 其特征在于, 跨模态Transformer模型包括四个基于跨模态注意力机制的跨模态
Transformer;
跨模态Transformer由多个跨模态注意力块堆叠而成, 每个跨模态注意力块将自注意
力块中自注意力层替换为 跨模态注意力层;
跨模态注意力层的注意力机制计算公式如式(1)所示:
式(1)中, Q 为Query矩阵, K为K ey矩阵, V为Value矩阵, dk为Q和K的列数;
跨模态注意力层中, Q是模态A的输入Tokens序列经过线性层获得, K和V是由模态B的输
入Tokens序列经过另外两个不同的线性层得到; 模态A、 模态B为生理传感数据、 行为传感数
据、 环境传感数据中任两个;
在每个跨模态注意力块内部, 模态A的输入Tokens序列X和模态B的输入Tokens序列Y先
经过层归一化, 再输入多头跨模态注意力机制, 如图4所示, 多头跨模态注意力机制内部共
包括h个跨模态注 意力层, 每个跨模态注 意力层输入为一个Query向量、 一个Key向量和一个权 利 要 求 书 1/4 页
2
CN 114973120 A
2Value向量的组合; 多头跨模态注意力机制将 两种输入序列X和Y分别分成h份: X1,X2,…,Xh、
Y1,Y2,…,Yh, 再使X1,X2,…,Xh通过h个线 性层得到h个Query向量, 让Y1,Y2,…,Yh分两次送入
2h个线性层分别得到h个Key 向量和h个Value向量, 从而得到h个Query、 Key和Value向量的
组合, 将其送入h个跨模态注意力层, 计算得到h个输出矩阵Z1,Z2,…,Zh, 再将h个输出矩阵
Z1,Z2,…,Zh进行拼接, 然后传入一个线性层 进行维度变换, 最终得到和输入向量X、 Y维度相
同的输出Tokens向量Z, 该输出Tokens向量Z包含了从多个子空间学习的不同注意力特征,
多头跨模态注意力机制之后经过一个残差结构, 再经过层归一化之后送入前馈神经网络,
前馈神经网络包含两层 全连接层, 最 终再通过一个残差结构得到该跨模态注意力块的输出
Tokens向量Z;
将经过一维卷积及位置编码后的多维传感数据Tokens分别两两组合; 输入四个基于跨
模态注意力机制的跨模态Transformer进行初步的跨模态信息交互; 具体是指: 设定预处理
后的模态A Tokens及预处理后的模态B Tokens, 在预处理后的模态A Tokens中获取Query
向量, 在预处理后的模态BTokens中获取Key向量和Value向量, 实现模态B中低级别信号与
目标通道模态 A不断进行交 互, 从而将模态 A及模态B进行初步的跨模态信息交 互;
初步的跨模态信息交互处理后, 进一步对提取到的跨模态特征进行融合, 得到初步的
多维多模态传感特 征序列;
进一步优选的, 将预处理后的多维传感数据分别两两组合, 包括环境传感数据组合生
理传感数据、 行为传感数据组合生理传感数据、 生理传感数据组合行为传感数据、 环境传感
数据组合行为传感数据四种跨模态组合。
4.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别
方法, 其特 征在于, 瓶颈Transformer模型由多个自注意力块 堆叠而成;
瓶颈Transformer通过在不同模态输入序列之间通过FSN Tokens隔开, 在网络浅层, 通
过FSN Tokens序列来交换跨模态信息, 使得网络计算时从一次性计算所有序列长度转变为
分三次计算三种模态的输入序列, 在网络深层, 取消FSN Tokens的限制, 让来自不同模态的
特征信息直接进行交 互, 实现多模态 异构数据的深度融合。
5.根据权利要求1所述的一种基于多维传感数据与监控视频多模异构融合的行为识别
方法, 其特 征在于, 瓶颈Transformer模型由12个自注意力块 堆叠而成;
在前8个自注意力块都使用FSN Tokens来限制自注意力的流动, 即分别送入序列1+
FSN1, FSN1+序列2+FSN2, FSN2+序列3, 将原有的拼接序列分为三次送入自注意力块中; 在后
4层注意力块中, 则 取消FSN Tokens的限制, 让完整的拼接序列一次性输入自注意力块中,
进行最终的数据特 征融合。
6.根据权利要求1 ‑5任一所述的一种基于多维传感数据与监控视频多模异构融合的行
为识别方法, 其特 征在于, 行为识别模型的训练过程如下:
步骤1: 构建数据集: 采集特定人员的真实的多维传感数据, 同时获取摄像头的监控视
频流, 对数据进行 标注, 行为的分类或者是否发生异常行为;
步骤2: 数据集预处理: 对采集的多维传感数据进行一维卷积及位置编码, 对采集的监
控视频进行 预处理;
步骤3: 训练行为识别模型: 采用分步训练的方式, 先训练跨模态Transformer模型的网
络参数, 再训练渐进采样模块和瓶颈Transformer模 型的网络参数, 最后同时训练整个训练权 利 要 求 书 2/4 页
3
CN 114973120 A
3
专利 一种基于多维传感数据与监控视频多模异构融合的行为识别方法及系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:57:37上传分享