专利 一种手术器械、行为和目标组织联合识别的方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210366332.6 (22)申请日 2022.04.08 (71)申请人中国科学院深圳先进技术研究院地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号 (72)发明人夏彤　贾富仓　 (74)专利代理机构深圳市科进知识产权代理事务所(普通合伙) 44316 专利代理师孟洁 (51)Int.Cl. G06V 20/52(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种手术器械、行为和目标组织联合识别的方法及装置 (57)摘要本发明涉及医学图像处理领域，具体涉及一种手术器械、行为和目标组织联合识别的方法及装置。该方法及装置首先利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦；再引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合；而后通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。本发明通过对手术场景中局部多样性细粒度特征进行提取，实现更充分的空间特征描述，通过类别解耦实现外科手术中多器械、多目标情况下的精准识别，综合实现了精准具体的手术场景关键内容的自动实时解析。权利要求书3页说明书13页附图2页 CN 114782889 A 2022.07.22 CN 114782889 A 1.一种手术器械、行为和目标组织联合识别的方法，其特征在于，包括以下步骤：利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦；引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合；通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。 2.根据权利要求1所述的手术器械、行为和目标组织联合识别的方法，其特征在于，所述利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦包括：利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征。 3.根据权利要求2所述的手术器械、行为和目标组织联合识别的方法，其特征在于，所述利用基于通道注意力的多标签互通道损失作用于深度卷积网络对场景中的手术器械、行为和目标组织子任务提取出空间特征包括：采用深度残差网络作为主干模块初步提取深层特征，再使用全局池化操作得到多维特征向量来构建子任务分支；基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组。 4.根据权利要求3所述的手术器械、行为和目标组织联合识别的方法，其特征在于，所述采用深度残差网络作为主干模块初步提取深层特征，再使用全局池化操作得到多维特征向量来构建子任务分支包括：首先采用由四个残差模块组成的五十层深度残差网络作为主干模块初步提起深层特征，再使用全局池化操作得到2048维的特征向量作为主干模块的输出；采用1×1卷积操作将提取到的2048维特征向量变换到适应于各任务分支的通道数。 5.根据权利要求3所述的手术器械、行为和目标组织联合识别的方法，其特征在于，所述基于各任务的总类别数将对应的全局特征划分为类别对齐的特征组包括：腹腔镜胆囊切除术涉及目标组织15类，利用1 ×1卷积操作得到2040维度的全局特征F，将其划分为15组特征： F＝{F0,F1,…,F14}；其中每组Fi包含ξ个通道，用于提取第i类目标组织对应在手术场景中的多样性局部细粒度特征；多标签互通道损失由区分性模块和多样性模块组成，在单个任务上分别作用于15组特征F之间和每组特征Fi内部；对于第i组特征Fi，区分性模块首先通过随机生成的0 ‑1对角矩阵Mi对该组内ξ个通道进行深度学习中的Mask操作，再对Mask操作后的组内特征进行跨通道的最大池化操作，得到当前图像对第i个类别的最终响应，具体区分性模块表示为：其中W和H表示特征图的宽度和高度， Fi,j,k表示第i组特征中第j个通道上的第k个元素位置；权　利　要　求　书 1/3 页 2 CN 114782889 A 2输入图片对每个类别的最终响应Dis(F0)到Dis(Fn‑1)得到后，经过So ftmax操作得到多标签区分性损失函数：其中yi表示当前图像对于第i类的真实标签， n表示该子任务的总类别数；多样性模块在每组特征Fi内部执行逐元素的Softmax操作，然后在组内每张特征图上进行跨通道的平均池化操作：当每张图上的平均响应计算后，多样性损失可通过下式计算得到：完整的多标签互通道损失通过对多样性模块和区分性模块的加权和求得: LMC(F)＝ λ1Ldis+λ2Ldiv；其中相应的权重根据特定任务的需求加以调节设定。 6.根据权利要求1所述的手术器械、行为和目标组织联合识别的方法，其特征在于，所述引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合包括：在各任务的细粒度视觉特征提取模块后通过一个单层的长短时记忆网络进行一段时间输入内的运动特征提取，得到512维时空融合特征并最终通过全连接层实现相应任务的识别。 7.根据权利要求6所述的手术器械、行为和目标组织联合识别的方法，其特征在于，在视觉特征层面采用跳跃链接的方法实现级联式的有效视觉特征传递，其中长短时记忆网络的整体损失函数由视觉特征层级的互通道损失和时空融合特征得到分类结果的标准交叉熵损失加权组成。 8.一种手术器械、行为和目标组织联合识别的装置，其特征在于，包括：类别对齐的细粒度视觉特征提取模块，用于利用类别对齐的通道注意力机制对场景中的手术器械、行为和目标组织子任务进行特征类别对齐解耦；时空特征融合模块，用于引入长短时记忆网络对特征类别对齐解耦后的场景中手术器械、行为和目标组织子任务的动作信息进行时空特征融合；多任务级联模块，用于通过全连接层对时空特征融合后的手术器械、行为和目标组织子任务进行识别。 9.一种存储介质，其特征在于，所述存储介质存储有能够实现权利要求1至7中任意一项所述手术器械、行为和目标组织联合识别的方法的程序文件。权　利　要　求　书 2/3 页 3 CN 114782889 A 3

专利 一种手术器械、行为和目标组织联合识别的方法及装置

专利一种手术器械、行为和目标组织联合识别的方法及装置