专利 一种半监督人脸情绪识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210160626.3 (22)申请日 2022.02.22 (71)申请人中南林业科技大学地址 410004 湖南省长沙市天心区韶山南路498号 (72)发明人潘丽丽　邵伟志　马俊勇　熊思宇　 (74)专利代理机构长沙永星专利商标事务所 (普通合伙) 43001 专利代理师周咏　米中业 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/74(2022.01) G06V 10/762(2022.01) G06V 10/766(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种半监督人脸情绪识别方法 (57)摘要本发明公开了一种半监督人脸情绪识别方法，包括获取基础图像数据样本；对标签数据进行预测，计算预测值和标签值之间的距离作为监督损失；将无标签数据生成平滑伪标签，将平滑伪标签和预测值之间的距离作为半监督损失；构建基于相似性学习的三元组损失，包括对图像数据的深度特征进行聚类，构建三元组，计算相似性三元组损失，构建完整损失函数，并根据梯度下降更新网络参数；获取半监督人脸情绪识别模型，并对当前的人脸图像数据进行情绪分析。本发明在连续域数据集中识别准确高效，同时通过调整末端在离散域数据集中取得了优异的识别率；本发明通过基于相似性学习的三元组损失函数，能够学习人脸图像间的相似性，提高了情绪变化的识别率。权利要求书5页说明书11页附图2页 CN 114529973 A 2022.05.24 CN 114529973 A 1.一种半监督人脸情绪识别方法，其特征在于包括如下步骤： S1.获取基础图像数据样本，包括标签数据和无标签数据； S2.采用CNN ‑LSTM回归器对标签数据进行预测，计算预测值和标签值之间的距离作为监督损失；通过CNN‑LSTM回归器，使用微调MixUp和时间集成为无标签数据生成平滑伪标签，将平滑伪标签和预测值之间的距离作为半监督损失； S3.构建基于相似性学习的三元组损失，包括对图像数据的深度特征进行聚类，基于聚类结果构建三元组，通过三元组之间的相似度计算相似性三元组损失，并根据梯度下降更新网络参数； S4.通过监督损失、半监督损失和相似性三元组损失的加权构建CNN ‑LSTM回归器的完整损失函数，根据损失值和梯度下降更新网络参数获取半监督人脸情绪识别模型，并对当前的人脸图像数据进行情绪分析。 2.根据权利要求1所述的半监督人脸情绪识别方法，其特征在于所述的CNN ‑LSTM回归器，包括在每一帧中，使用S3D人脸检测算法对图像的人脸区域进行检测；利用基于ResNet 的CNN编码器提取深度特征；在引入LSTM之前，通过全连接层将提取的特征长度调整为 2048；在引入LSTM之后，分别由两个不同的全连接层输出激励和效价； LSTM包括遗忘门、输入门和输出门。 3.根据权利要求2所述的半监督人脸情绪识别方法，其特征在于所述的步骤S2包括，对无标签数据进行数据扩充，然后对扩充数据的预测取均值；使用微调MixUp对标签数据与无标签数据混合后得到目标数据；网络对目标数据进行预测并计算损失函数。 4.根据权利要求3所述的半监督人脸情绪识别方法，其特征在于所述的步骤S3，包括如下步骤： A1.对图像的深度特征进行聚类： A2.通过一次迭代后 CNN提取的样本特征计算加权项，将加权项加入聚类中心中进行更新； A3.给定一个批处理的样本，对批处理的样本中的数据构建三元组，得到聚类空间的数据的激活矩阵，并计算数据间的相似性与差异性损失；通过数据间的相似性和差异性损失获取最终的相似性三元组损失。 5.根据权利要求4所述的半监督人脸情绪识别方法，其特征在于所述的步骤A1，包括对于给定的基础图像数据样本，对初始的标签数据的深度特征进行聚类后得到初始聚类中心；在训练过程中，将无标签数据和标签数据同时输入到CNN ‑LSTM回归器中，计算与基础图像数据样本距离最小的聚类中心，同时基础图像数据样本的聚类类别由与其距离最小的聚类中心决定。 6.根据权利要求5所述的半监督人脸情绪识别方法，其特征在于所述的步骤A2包括，根据一次迭代后CNN提取的样本特征计算加权项包括通过初始聚类深度特征之和和基础图像数据样本距离最小的聚类中心的倒数的积，与经过一次迭代后CNN提取的样本特征与经过一次迭代后与基础图像数据样本距离最小的聚类中心的倒数的积求和，一直迭代到预定迭代终止次数；迭代后聚类空间中样本间的距离为两个不同的基础图像数据样本的特征向量的欧几里得范数。权　利　要　求　书 1/5 页 2 CN 114529973 A 27.根据权利要求6所述的半监督人脸情绪识别方法，其特征在于所述的步骤A3，包括给定一个批处理的样本，构建三元组，三元组包括每个批处理中标签数据、聚类空间中与每个批处理中标签数据同类中距离最远的数据和聚类空间中与每个批处理中标签数据异类中距离最近的数据；每个批处理中标签数据对激活图的激活模式进行的编码为，每个批处理中标签数据在CNN中的激活通道的重塑矩阵及其转置的积；对每个批处理中标签数据对激活图的激活模式进行的编码进行逐行归一化求得每个批处理中标签数据的激活矩阵；同时求解聚类空间中与每个批处理中标签数据同类中距离最远的数据的激活矩阵，和聚类空间中与每个批处理中标签数据异类中距离最近的数据的激活矩阵；定义数据间的相似性为激活矩阵之间的差值，求解激活矩阵之间的差值，包括：求解每个批处理中标签数据的激活矩阵，和聚类空间中与每个批处理中标签数据同类中距离最远的数据的激活矩阵之间的差值；计算差异性损失，包括：求解每个批处理中标签数据的激活矩阵，和聚类空间中与每个批处理中标签数据异类中距离最近的数据的激活矩阵的差异性损失；求得相似性三元组损失为：每个批处理中标签数据的激活矩阵，和聚类空间中与每个批处理中标签数据同类中距离最远的数据的激活矩阵之间的差值，减去每个批处理中标签数据的激活矩阵，和聚类空间中与每个批处理中标签数据异类中距离最近的数据的激活矩阵的差异性损失。 8.根据权利要求7 所述的半监督人脸情绪识别方法，其特征在于所述的步骤S2，包括：对于未标签数据，使CNN ‑LSTM回归器从平滑的标签学习，第一次对无标签数据进行数据扩充： u表示无标签数据； au gment(·)表示扩充操作；表示扩充后的无标签数据； k表示数据扩充的次数；对扩充后的无标签数据取均值；其中， q表示取均值后的预测分布； k表示数据扩充的次数； i表示给定的基础图像数据样本的计数变量； Pmodel表示深度网络模型； ui表示某一张图片； θ表示网络参数；将标签数据(x1， p)和无标签数据(u1， q)混合， x1表示标签图像， p表示标签图像的标签， u1表示无标签图像， q表示对无标签图像数据扩充后取均值得到的预测分布，输出目标数据 x′表示标签图像与无标签图像混合得到的数据；表示标签图像的标签与标签图像数据扩充后取均值得到的预测分布混合后的分布；将目标数据作为学习目标： x′＝ λ′x1+(1‑λ′)u1 其中， α表示超参数； λ ′＝max( λ， 1 ‑λ )， λ～Bata( α， α )， λ表示从Beta分布中随机取出的值， λ′表示 λ与1 ‑λ 间的最大值； max( ·)表示取其中的最大值； Beta( ·)表示Beta分布；对目标数据进行预测得到预测值P ′，为了从不同角度获取信息，采用不同训练时段的CNN‑LSTM回归器对伪标签进行投票：权　利　要　求　书 2/5 页 3 CN 114529973 A 3

专利 一种半监督人脸情绪识别方法

专利一种半监督人脸情绪识别方法