国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211158604.X (22)申请日 2022.09.22 (71)申请人 联仁健康医疗大 数据科技股份有限 公司 地址 200131 上海市浦东 新区中国 (上海) 自由贸易试验区川和路5 5弄3号 (72)发明人 聂金苗  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 杨义 (51)Int.Cl. G06F 40/211(2020.01) G06N 20/00(2019.01) G06V 30/12(2022.01) (54)发明名称 一种文本纠错方法、 装置、 电子设备及存储 介质 (57)摘要 本发明公开了一种文本纠错方法、 装置、 电 子设备及存储介质。 基于图像识别模块识别待处 理图像中的文字信息以及文字信息的置信度; 当 检测到存在置信度低于预设置信度阈值的待纠 错文字时, 获取与待纠错文字相邻的已识别文 字; 根据与待纠错文字相关联的待选择文字, 确 定与待纠错文字相对应的待纠错文字编码; 基于 各已识别文字所对应的已识别文字编码以及待 纠错文字编码, 确定目标语句编码; 将目标语句 编码输入至文字预测模型中, 得到目标语句; 基 于目标语句中的预测文字替换待纠错文字, 解决 了人工纠错和机器学习的算法实现文本纠错过 程中, 成本较高, 效率低的技术问题, 提升了文本 纠错的准确率和效率, 提高了用户阅读文本的流 畅性。 权利要求书2页 说明书12页 附图4页 CN 115455940 A 2022.12.09 CN 115455940 A 1.一种文本纠错方法, 其特 征在于, 包括: 基于图像识别模块识别待处 理图像中的文字信息以及所述文字信息的置信度; 当检测到存在置信度低于预设置信度阈值的待纠错文字时, 获取与 所述待纠错文字相 邻的至少两个已识别文字; 根据与所述待纠错文字相关联的至少一个待选择文字, 确定与 所述待纠错文字相对应 的待纠错文字编码; 基于各已识别文字所对应的已识别文字编码以及所述待纠错文字编码, 确定目标语句 编码; 将所述目标语句编码输入至预先训练得到的文字预测模型中, 得到目标语句; 其中, 所 述目标语句中包括对所述待纠错文字相对应的预测文字; 基于所述目标语句中的预测文字替换 所述待纠错文字 。 2.根据权利要求1所述的方法, 其特征在于, 在所述基于图像识别模块识别待处理图像 中的文字信息以及所述文字信息的置信度之后, 还 包括: 将置信度低于所述预设置信度阈值的待纠错文字区别显示于 显示界面。 3.根据权利要求1所述的方法, 其特征在于, 所述获取与 所述待纠错文字相邻的至少两 个已识别文字, 包括: 获取所述待纠错文字所属语句的至少两个已识别文字; 或, 以所述待纠 错文字为起始点, 获取所述待纠 错文字之前和之后的预设数量的文字, 得 到所述至少两个已识别文字 。 4.根据权利要求1所述的方法, 其特征在于, 根据与所述待纠错文字相关联的至少一个 待选择文字, 确定与所述待纠错文字相对应的待纠错文字编码, 包括: 基于预先设置语料库确定与 所述待纠错文字相关联的至少一个待选择文字, 以及各待 选择文字在文本中所对应的待选择置信度; 基于各待选择文字和相应的待选择置信度, 确定与各待选择文字所对应的待选择文本 编码; 基于各待选择文本编码, 确定待 使用文字编码; 基于所述待使用文字编码、 所述待纠错文字隶属于目标语句 的位置编码以及分割编 码, 确定与所述待纠错文字所对应的待纠错文字编码; 其中, 所述目标语句包括待纠错文字以及所述至少两个已识别文字 。 5.根据权利要求4所述的方法, 其特征在于, 所述基于各待选择文字和相应的待选择置 信度, 确定与各待选择文字所对应的待选择文本编码, 包括: 对于各待选择文字, 确定与当前待选择文字所对应的待 使用文字编码; 计算所述待使用文字编码与 所述当前待选择文字的置信度乘积, 得到所述当前待选择 文字所对应的待选择文字编码。 6.根据权利要求1所述的方法, 其特征在于, 所述基于各已识别文字所对应的已识别文 字编码以及所述待纠错文字编码, 确定目标语句编码, 包括: 依据所述已识别文字和所述待纠错文字在目标语句中的位置信 息, 对相应已识别文字 编码和所述待纠错文字编码拼接处 理, 得到目标语句编码。 7.根据权利要求1所述的方法, 其特 征在于, 还 包括:权 利 要 求 书 1/2 页 2 CN 115455940 A 2在所述待纠错文字相关联的位置处显示相应的预测文字, 以基于对所述预测文字的触 发操作替换 所述待纠错文字 。 8.一种文本纠错装置, 该装置包括: 置信度确定模块, 用于基于图像识别模块识别待处理图像中的文字信 息以及所述文字 信息的置信度; 待纠错字获取模块, 用于当检测到存在置信度低于预设置信度阈值的待纠 错文字时, 获取与所述待纠错文字相邻的至少两个已识别文字; 待纠错字编码确定模块, 用于根据与所述待纠 错文字相关联的至少一个待选择文字, 确定与所述待纠错文字相对应的待纠错文字编码; 目标编码确定模块, 用于基于各已识别文字所对应的已识别文字编码以及所述待纠错 文字编码, 确定目标语句编码; 目标语句确定模块, 用于将所述目标语句编码输入至预先训练得到的文字预测模型 中, 得到目标语句; 其中, 所述目标语句中包括对所述待纠错文字相对应的预测文字; 预测文字替换模块, 用于基于所述目标语句中的预测文字替换 所述待纠错文字 。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使所述至少一个处理器能够执行权利要求1 ‑7中任一项所述的 文本纠错方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机指 令, 所述计算机指令用于使处 理器执行时实现权利要求1 ‑7中任一项所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 115455940 A 3

.PDF文档 专利 一种文本纠错方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本纠错方法、装置、电子设备及存储介质 第 1 页 专利 一种文本纠错方法、装置、电子设备及存储介质 第 2 页 专利 一种文本纠错方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:11:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。