(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210366332.6
(22)申请日 2022.04.08
(71)申请人 中国科学院深圳先进技 术研究院
地址 518055 广东省深圳市南 山区深圳大
学城学苑大道1068号
(72)发明人 夏彤 贾富仓
(74)专利代理 机构 深圳市科进知识产权代理事
务所(普通 合伙) 44316
专利代理师 孟洁
(51)Int.Cl.
G06V 20/52(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种手术器械、 行为和目标组织联合识别的
方法及装置
(57)摘要
本发明涉及医学图像处理领域, 具体涉及一
种手术器械、 行为和目标组织联合识别的方法及
装置。 该方法及装置首先利用类别对齐的通道注
意力机制对场景中的手术器械、 行为和目标组织
子任务进行特征类别对齐解耦; 再引入长短时记
忆网络对特征类别对齐解耦后的场景中手术器
械、 行为和目标组织子任务的动作信息进行时空
特征融合; 而后通过全 连接层对时空特征融合后
的手术器械、 行为和目标组织子任务进行识别。
本发明通过对手术场景中局部多样性细粒度特
征进行提取, 实现更充分的空间特征描述, 通过
类别解耦实现外科手术中多器械、 多目标情况下
的精准识别, 综合实现了精准具体的手术场景关
键内容的自动实时解析。
权利要求书3页 说明书13页 附图2页
CN 114782889 A
2022.07.22
CN 114782889 A
1.一种手术器械、 行为和目标组织联合识别的方法, 其特 征在于, 包括以下步骤:
利用类别对齐的通道注意力 机制对场景中的手术器械、 行为和目标组织子任务进行特
征类别对齐解耦;
引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、 行为和目标组织子任
务的动作信息进行时空特 征融合;
通过全连接层对时空特 征融合后的手术器械、 行为和目标组织子任务进行识别。
2.根据权利要求1所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 所
述利用类别对齐的通道注意力机制对场景中的手术器械、 行为和目标组织子任务进行特征
类别对齐解耦包括:
利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、
行为和目标组织子任务 提取出空间特 征。
3.根据权利要求2所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 所
述利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、 行
为和目标组织子任务 提取出空间特 征包括:
采用深度残差网络作为主干模块初步提取深层特征, 再使用全局池化操作 得到多维特
征向量来构建子任务分支;
基于各任务的总类别数将对应的全局特 征划分为类别对齐的特 征组。
4.根据权利要求3所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 所
述采用深度残差网络作为主干模块初步提取深层特征, 再使用全局池化操作得到多维特征
向量来构建子任务分支包括:
首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特
征, 再使用全局池化操作得到2048维的特 征向量作为主干模块的输出;
采用1×1卷积操作将提取到的2048维特 征向量变换到适应于各任务分支的通道数。
5.根据权利要求3所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 所
述基于各任务的总类别数将对应的全局特 征划分为类别对齐的特 征组包括:
腹腔镜胆囊切除术涉及目标组织15类, 利用1 ×1卷积操作得到2040维度的全局特征F,
将其划分为15组特 征:
F={F0,F1,…,F14};
其中每组Fi包含ξ个通道, 用于提取第i类目标组织对应在手术场景中的多样性局 部细
粒度特征;
多标签互通道损失由区分性模块和多样性模块组成, 在单个任务上分别作用于15组特
征F之间和每组特 征Fi内部;
对于第i组特征Fi, 区分性模块首先通过随机生成的0 ‑1对角矩阵Mi对该组内ξ个通道进
行深度学习中的Mask操作, 再对Mask操作后的组内特征进行跨通道的最大池化操作, 得到
当前图像对第i个 类别的最终响应, 具体区分性模块表示 为:
其中W和H表示特征图的宽度和高度, Fi,j,k表示第i组特征中第j个通道上 的第k个元素
位置;权 利 要 求 书 1/3 页
2
CN 114782889 A
2输入图片对每个类别的最终响应Dis(F0)到Dis(Fn‑1)得到后, 经过So ftmax操作 得到多
标签区分性损失函数:
其中yi表示当前图像对于第i类的真实标签, n表示该子任务的总类别数;
多样性模块在每组特征Fi内部执行逐元素的Softmax操作, 然后在组内每张特征图上进
行跨通道的平均池化操作:
当每张图上的平均响应 计算后, 多样性损失可通过 下式计算得到:
完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得:
LMC(F)= λ1Ldis+λ2Ldiv;
其中相应的权 重根据特定任务的需求加以调节设定 。
6.根据权利要求1所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 所
述引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、 行为和目标 组织子任务
的动作信息进行时空特 征融合包括:
在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时
间输入内的运动特征提取, 得到512维时空融合特征并最终通过全连接层实现相应任务的
识别。
7.根据权利要求6所述的手术器械、 行为和目标组织联合识别的方法, 其特征在于, 在
视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递, 其中长短时记忆网络
的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉
熵损失加权组成。
8.一种手术器械、 行为和目标组织联合识别的装置, 其特 征在于, 包括:
类别对齐的细粒度视觉特征提取模块, 用于利用类别对齐的通道注意力 机制对场景中
的手术器械、 行为和目标组织子任务进行 特征类别对齐解耦;
时空特征融合模块, 用于引入长短时记忆网络对特征类别对齐解耦后的场景中手术器
械、 行为和目标组织子任务的动作信息进行时空特 征融合;
多任务级联模块, 用于通过全连接层对时空特征融合后的手术器械、 行为和目标组织
子任务进行识别。
9.一种存储介质, 其特征在于, 所述存储介质存储有能够实现权利要求1至7中任意一
项所述手术器械、 行为和目标组织联合识别的方法的程序文件。权 利 要 求 书 2/3 页
3
CN 114782889 A
3
专利 一种手术器械、行为和目标组织联合识别的方法及装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:59:03上传分享