(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210338977.9
(22)申请日 2022.04.01
(71)申请人 安徽建筑大学
地址 230000 安徽省合肥市经济技 术开发
区紫云路292号
(72)发明人 陈杰 颜普 邵慧 徐恒 孙龙
(74)专利代理 机构 合肥律众知识产权代理有限
公司 34147
专利代理师 赵娟
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 20/52(2022.01)
G06V 40/20(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于3D SE-Densenet网络的视频暴力行为
识别模型
(57)摘要
本发明涉及视频行为识别, 具体涉及基于
3DSE‑Densenet网络的视频暴力行为识别模型,
包括依次连接的初始卷积层、 池化层、 密集块和
全连接层, 密集块之间连接有过渡层, 初始卷积
层将连续视频帧作为输入, 并生成特征图, 密集
块根据每个特征通道的重要程度在通道维度上
对原始特征进行重标定, 池化层、 过渡层对特征
图进行下采样, 并减少相邻密集块之间匹配输出
和输入特征图的数量, 密集块与全 连接层之间通
过全局平均池化操作连接起来进行分类; 本发明
提供的技术方案能够有效克服现有技术所存在
的参数数量较多、 视频暴力行为识别准确性较低
的缺陷。
权利要求书1页 说明书7页 附图5页
CN 114743138 A
2022.07.12
CN 114743138 A
1.基于3D SE‑Densenet网络 的视频暴力行为识别模型, 其特征在于: 包括依次连接的
初始卷积层、 池化层、 密集块和全连接层, 所述密集块之间连接有过渡层, 所述初始卷积层
将连续视频帧作为输入, 并生成特征图, 所述密集块根据每个特征通道的重要程度在通道
维度上对原始特征进 行重标定, 所述池化层、 过渡层 对特征图进 行下采样, 并减少相 邻密集
块之间匹配输出和输入特征图的数量, 所述密集块与全连接层之 间通过全局平均池化操作
连接起来进行分类。
2.根据权利要求1所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述密集块包括紧密相连的密集层, 所述密集层中嵌入有SENet模块, 并且每个密集
层都采用带 预激活的瓶颈架构。
3.根据权利要求2所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述SENet模块包括全局平均池化操作和Excitation操作, 所述全局平均池化操作采
用下式表示:
其中, 原始数据的维度为C ×W×H×D, H是高度, W是宽度, C是特征通道数, D是时间深
度, 所述全局平均池化操作将数据 维度由C×W×H×D压缩为C ×1×1×1, 获得了之前W ×H
×D全局视野。
4.根据权利要求3所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述Excitati on操作包括:
用w1乘以全局平均池化操作得到的结果a, 然后经过ReLU激活函数, 再与w2相乘, 最后经
过sigmoid函数, 得到 输出权重s:
s=σ(g(a,w) )=σ(w2δ(w1a))
其中, w1的维度为C/r ×C, r是一个缩 放参数, 目的是为了减少特征通道数从而降低计算
量, δ(*)表示ReLU激活函数, w2的维度为C ×C/r, σ(*)表示sigmo id函数。
5.根据权利要求4所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述密集块将 Excitation操作得到的输出权重 s作为每个特征通道的重要程度, 并通
过乘法逐通道加权 到先前特征图上, 完成在通道维度上对原 始特征的重标定 。
6.根据权利要求2 ‑5中任意一项所述的基于3D SE‑Densenet网络的视频暴力行为识别
模型, 其特 征在于: 所述SENet模块扩展到三维。
7.根据权利要求2所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述密级块中第l密集层接收前l ‑1密集层生成的所有特 征图作为输入:
yl=Hl([y0,y1,...,yl‑1])
其中, Hl(*)是第l密集层的状态转移函数, [*]表示连接操作, 每个密集层生成k个新的
特征图, k为增长率的超参数。
8.根据权利要求1所述的基于3D SE‑Densenet网络的视频暴力行为识别模型, 其特征
在于: 所述初始卷积层、 池化层和全连接层均设有一个, 所述密集块设有三个, 所述过渡层
设有两个, 所述初始卷积层、 池化层的所有内核大小都是三维的。权 利 要 求 书 1/1 页
2
CN 114743138 A
2基于3D SE‑Densenet网络的视频暴力行为识别模型
技术领域
[0001]本发明涉及 视频行为识别, 具体涉及基于3D SE‑Densenet网络的视频暴力行为识
别模型。
背景技术
[0002]暴力行为通常情 况下是指在特定场景下发生的, 危害公共安全及生命和财产安全
的一系列行为, 如打架斗殴、 抢劫等行为。 暴力行为一旦发生通常会造成非常严重的后果,
因此在视频监控中及时识别暴力行为并自动预警, 对维护公共安全和社会秩序具有至 关重
要的现实意 义和应用价 值。
[0003]视频暴力行为识别是视频异常行为识别的一种特殊应用。 目前, 越来越多的研究
人员对视频暴力行为识别技术进行研究, 并提出了许多针对暴力行为识别的研究方法。 视
频暴力行为识别的方法根据其特征提取方法通常可以分为两类: 传统的基于手工特征的方
法和深度学习方法。
[0004]基于手工特征的方法通常提取人工设计的特征, 然后使用 编码策略进行聚合, 最
后使用机器学习分类器进行最终决策。 其中, S TIP(Spac e‑Time Interest Points)、 MoSIFT
(Motion Scale Invariant Feature Transform)和iDT(improved dense trajectories)
是暴力行为识别中广泛使用的特征描述符, 还有一些明确设计用来表示暴力信息的描述
符, 如Hassner等人提出暴力流VIF(Violent Flows)描述符, 通过提取相邻帧间的光流信息
来识别拥挤场景下的暴力行为。 后来, Gao等人改进了这项工作, 并通过额外计算光流的方
向信息, 提出了定向暴力流OVIF(Oriented Violent Flows)特征。 但是, 这些方法需要经过
复杂图像预处 理过程, 耗时过长, 并且受先验知识影响较大。
[0005]与基于手工特征的方法不同, 深度学习方法使用可训练的深度神经网络作为特征
提取器, 构建一种包括特征提取、 编码和分类的 “端到端”模型。 Simonyan等人提出了用于人
体动作识别的双流网络, 通过增加一个时间网络来捕获光流中的运动信息; Dong等人将该
模型扩展到多流, 增加了一个用于描捉暴力运动的加速流; 此外, 他们还使用LSTM(Long
Short Term Memory)网络对长期信息进行建模。
[0006]这些方法充分利用了手工特性与深度学习相 结合的优势。 然而, 缺点是它们不是
端到端可训练的, 更依赖于有效性手工制作的功能。 为了解决这些问题, Ding等人提出了一
种不使用任何手工特征或先验知识的3D卷积网络来识别暴力行为; Sudhakaran等人利用二
维卷积神经网络提取空间特征图, 然后利用卷积神经网络ConvLSTM编码时空信息, 对视频
暴力行为进行识别。
[0007]由于大规模数据集的可用性和深度学习技术的改进, 基于三维卷积神经网络的方
法在动作 识别方面取得了巨大成功。 Tran等人提出了C3D描述符, 并强调了有效视频描述符
的四个特性: 通用性、 紧凑性、 高效性和简单性。 不久之后, Hara等人进行了一系列 实验, 证
明在Kinetics数据集上预先训练的3D CNN可以取得良好效果。 Tran等人探索了多种3D CNN
架构, 并设计了一种新的时空卷积块R(2+1)D用于动作识别。 然而, 这些三维卷积神经网络说 明 书 1/7 页
3
CN 114743138 A
3
专利 基于3D SE-Densenet网络的视频暴力行为识别模型
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:05:33上传分享