(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210362789.X
(22)申请日 2022.04.07
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 郭健
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
专利代理师 邬赵丹
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/762(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种基于YOLO v5的水果识别方法
(57)摘要
本发明涉及一种基于YOL O v5的水果识别方
法。 本发明将SKnet与残差模块相结合设计新的
模块替换YOLO v5中的残差模块, 同时使用空洞
卷积降低模 型复杂度, 实现超市中水果的自动识
别。 本发明对 预测框的聚类分析使模 型针对水果
形状更好的进行预测; 改进的YOL Ov5特征提取网
络, 针对市面上大部分水果进行特征提取, 针对
不同通道, 分配不同的特征权重, 降低重要特征
在传递过程中的损失, 提高针对水果的识别率。
权利要求书2页 说明书5页 附图4页
CN 114663769 A
2022.06.24
CN 114663769 A
1.一种基于 YOLO v5的水果识别方法, 其特 征在于: 具体包括如下步骤:
步骤一、 水果图像收集: 利用相机对 超市水果进行视频拍摄;
步骤二、 视频采样图片: 对拍摄的视频进行间隔采样, 获得图片;
步骤三、 图像标注以及数据集划分: 对获得的图片标注图中物体边界框位置和类别, 然
后将数据集划分为训练集、 验证集、 测试集;
步骤四、 图像数据增强: 对训练集图像进行 预处理, 旋转、 裁 剪, 增加训练集图片数量;
步骤五、 对真实框聚类分析设计先验框: 首先对所有真实框进行划分, 严格按照大中小
面积划分, 其中大 目标定义为像素面积大于96*96, 中目标定义为像素面积大于32*32并小
于96*96, 小目标定义为像素面积小于32*32, 再分别对大中小真实框进行K ‑means聚类, 得
到大中小三个先验框的大小;
K‑means聚类包括以下步骤: 在数据集中确定聚类数量; 随机设定每个聚类的质心向
量; 为每个数据分配距离最近质心, 选用二范 数, 其计算方法如下:
其中(x, y)代 表质心的向量, (xi, yi)代表非质心向量, i 为整数表示聚类数量;
将该数据分配到所属质心的聚类, 直到全部分配完毕; 更新质心向量, 质心向量值为该
聚类的均值; 如果质心向量发生变化则重复步骤三、 步骤四, 否则输出质心;
步骤六、 构 建模型: YOLO v5网络包括特征提取部分、 特征融合部分和预测部分, 对其特
征提取部分和特 征融合部分进行优化;
YOLO v5的特征提取部分包括Focus模块、 CBL模块、 由CB L模块和残差模块组成的CSP模
块、 以及SPP模块; Focus模块用于对图像进行切片融合, CBL模块由2D卷积、 批量归一化、
Leaky relu组成, CSP由CBL和多个残差块组成, SPP模块由多个多尺度最大池化组成; 将
SKNet模块嵌入到Focus模块中, 形成SKFocus; 并将SKNet与残差模块相结合设计新的SK残
差模块;
SKFocus为: 对输入图片X,分别使用卷积核大小为3*3卷积操作, 卷积核为5*5的空洞卷
积, 得到特征图F1、 F2; 将两个特征按元素相 加得到特征F; F在经过全局平均池化 得到通道统
计信息, 其计算公式为:
其中, H为特 征F的高, W为特征F的宽, c为特 征F的通道数;
Sc在经过FC+Sigmoid对特征图F1、 F2分别生成对应权重向量A, B; 然后分别按通道方向
做softmax, 其公式为:
其中c代表通道数, ac和bc分别与特 征F1、 F2加权相乘, 在与原来输入X进行按通道拼接;
SK残差模块为, 对输入Y经过两个CBL后 输出特征U, 该特征U分别使用卷积核大小为3*3
卷积操作, 卷积核为5*5的空洞卷积, 得到特征图U1、 U2; 将两个特征按元素相加得到特征U3;
U3在经过全局平均 池化得到通道统计信息, 在经过FC+S igmoid分别生成权重a2, b2, 其中a2+权 利 要 求 书 1/2 页
2
CN 114663769 A
2b2=1; 将a2和b2分别与特 征U1、 U2加权相乘按元 素相加, 然后与原来输入Y按元 素相加;
其中空洞卷积为, 在标准卷积的基础上增加参数dilated rate, 这个参数就是在卷积
核中填充dilation rate‑1个0, 在具体实现时, 采用对输入的间隔dilation rate‑1采样,
从而在实现同样感受野的时候, 减小参数量和运 算量;
特征融合模块采用了FPN+PAN 的结构对特征进行融合得到19*19, 38*38, 76*76的特征
图, 同时本方法将特征融合模块中卷积核大于等于5*5的卷积操作替换为dilated rate=2
的空洞卷积;
将上述得到的特征图输入预测模块进行预测; 其中19*19特征图用于大目标的预测,
38*38特征图用于中等目标的预测, 76 *76特征图用于小目标的预测;
步骤七、 训练模型并调参优化模型: 在训练之前, 使用步骤五中得到的先验框输入到模
型检测头对目标的位置和类别进行训练, 同时使用迁移学习, 将已经在大数据集上训练的
YOLO v5参数加载到此模 型, 然后使用经步骤一~ 步骤四处理的数据集进 行训练; 每次迭代
都计算损失函数, 并更新参数值, 使损失函数的值最小, 直到模型收敛, 同时为防止过拟合,
迭代次数不超过3 00次;
步骤八、 在完成模型训练后, 保存模型权重参数, 设置格式为.pt格 式; 对保存到模型权
重文件重新加载, 并用这个权 重文件检测 测试集的图片。权 利 要 求 书 2/2 页
3
CN 114663769 A
3
专利 一种基于YOLO v5的水果识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:31:12上传分享