国家标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211158611.X (22)申请日 2022.09.22 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 申请人 上海境山科技有限公司 (72)发明人 何道敬 成青园 顾鸿杰 (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 专利代理师 徐筱梅 张翔 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/242(2020.01) G06F 40/166(2020.01) G06F 40/295(2020.01) G06N 20/00(2019.01) (54)发明名称 一种序列标注任务的文本数据增强方法及 系统 (57)摘要 一种序列标注任务的文本数据增强方法及 系统, 该方法包括: 将序列标注任务的文本数据 集按照7:1:2 的比例划分为训练集、 验证集和测 试集; 从序列标注任务的训练集中提取实体和实 体类型; 将每种实体类型的不同实体合并为实体 列表, 每种实体类型和对应的实体列表为一个键 值对, 多个键值对构成实体字典; 对序列标注任 务的训练集进行数据增强, 生成增强文本; 对于 生成的若干个增强本文进行去重处理将训练集 和增强文本合并, 得到增强文本集, 进行深度学 习模型训练。 本申请的序列标注任务包括: 命名 实体识别任务或关系抽取任务, 通过实体替换的 方法进行数据增强, 能够有效保留实体间上下文 语义, 提高模型的泛化能力。 权利要求书2页 说明书6页 附图3页 CN 115438645 A 2022.12.06 CN 115438645 A 1.一种序列标注任务的文本数据增强方法, 其特 征在于, 该 方法包括以下步骤: 步骤1: 数据 集划分, 将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、 验 证集和测试集; 步骤2: 实体获取, 从序列标注任务的训练集中提取实体和实体 类型; 步骤3: 实体字典构造, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和 对应的实体列表为 一个键值对, 多个键值对构成实体字典; 步骤4: 数据增强, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 步骤5: 增强文本去重, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 步骤6: 模型训练, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测 试模型的泛化 误差, 通过测试集对 模型效果进行评估; 其中: 步骤4所述对序列标注任务的训练集进行 数据增强, 具体包括: 从序列标注任务的训练集中选 定一个目标文本, 确定目标文本的待替换实体; 对于待替换实体, 在概 率P的二项式分布下, 随机 选择该实体是否进行实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 对于目标文本中的所有 待替换实体 类型进行替换操作, 得到增强文本 。 2.根据权利要求1所述的序列标注任务的文本数据增强方法, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 3.一种序列标注任务的文本数据增强系统, 其特 征在于, 包括: 数据获取模块, 用于获取并建立序列标注任务的文本数据集, 按照7:1:2的比例划分为 训练集、 验证集和 测试集; 实体字典生成模块, 用于利用序列标注任务的训练集 生成实体字典; 数据增强模块, 对序列标注任务的训练集进行 数据增强, 生成增强文本; 增强文本去重模块, 对于生成的若干个增强本文 进行去重处 理, 得到增强文本集; 模型训练模块, 将训练集和增强文本集合并, 进行深度学习模型训练, 通过验证集测试 模型的泛化 误差, 通过测试集对 模型效果进行评估。 4.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述序列标 注任务包括命名实体识别任务或关系抽取任务。 5.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述实体字 典生成模块进一 步包括: 实体获取 单元, 从序列标注任务的训练集中提取实体和实体 类型; 实体字典构造单元, 将每种实体类型的不同实体合并为实体列表, 每种实体类型和对 应的实体列表为 一个键值对, 多个键值对构成实体字典。 6.根据权利要求3所述的序列标注任务的文本数据增强系统, 其特征在于, 所述数据增 强模块进一 步包括: 目标文本选择单元, 从序列标注任务的训练集中选定一个目标文本, 确定目标文本的 待替换实体; 实体替换单元, 对于待替换实体, 在概率P的二项式分布下, 随机选择该实体是否进行权 利 要 求 书 1/2 页 2 CN 115438645 A 2实体替换; 如果待替换实体需要进行替换, 根据待替换实体的实体类型和实体字典, 得到实体列 表, 从实体列表中随机 选择一个实体, 替换原来的实体; 如果实体不需要 进行替换, 该实体保持不变; 增强文本生成单元, 对于目标文本中的所有待替换实体类型进行替换操作, 得到增强 文本。权 利 要 求 书 2/2 页 3 CN 115438645 A 3
专利 一种序列标注任务的文本数据增强方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 12:10:50
上传分享
举报
下载
原文档
(482.5 KB)
分享
友情链接
GB-T 33134-2023 信息安全技术 公共域名服务系统安全要求.pdf
GB-T 30285-2013 信息安全技术 灾难恢复中心建设与运维管理规范.pdf
GB-T 43697-2024 数据安全技术 数据分类分级规则 报批稿.pdf
GB-T 32065.14-2019 海洋仪器环境试验方法 第14部分振动试验.pdf
GB-T 31914-2015 电子文件管理系统建设指南.pdf
GB-T 25205-2010 雨淋喷头.pdf
DB3303-T053-2022 公共机构节能管理规范 温州市.pdf
GB-T 32038-2015 照明工程节能监测方法.pdf
GB-T 30282-2023 信息安全技术 反垃圾邮件产品技术规范.pdf
NISP.SP.800-150 .pdf
GB-T 14463-2022 粘胶短纤维.pdf
GB-T 36572-2018电力监控系统网络安全防护导则.pdf
GB-T 1553-2023 硅和锗体内少数载流子寿命的测定 光电导衰减法.pdf
T-CSAE 194—2021 汽车外饰件用PVD 涂层技术条件.pdf
T-ZZB 0971—2019 0.01% 24-表芸苔素内酯水剂.pdf
GB-T 31129-2014 制造业信息化标准体系结构.pdf
GB-T 20280-2006 信息安全技术 网络脆弱性扫描产品测试评价方法.pdf
GB-T 35263-2017 纺织品 接触瞬间凉感性能的检测和评价.pdf
GB-Z 28828-2012 信息安全技术 公共及商用服务信息系统个人信息保护指南.pdf
GM-T 0027-2014 智能密码钥匙技术规范.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(482.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。