(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111355901.9
(22)申请日 2021.11.16
(65)同一申请的已公布的文献号
申请公布号 CN 114003596 A
(43)申请公布日 2022.02.01
(73)专利权人 国家工业信息安全发展研究中心
地址 100040 北京市石景山区鲁 谷路35号
(72)发明人 许丰娟 李俊 郝志强 高建磊
李耀兵 江浩 巩天宇 赵千
李赟
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 刘芳
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/28(2019.01)G06F 16/2455(2019.01)
H04L 9/40(2022.01)
(56)对比文件
CN 10895 6111 A,2018.12.07
CN 110912749 A,2020.0 3.24
WO 2021204 487 A1,2021.10.14
CN 111679288 A,2020.09.18
Lestat.Z. .“数据分布度的度量Measures
of Spread ”. 《https://blog.csdn.net/
yolohohohoho/article/detai ls/99686997》
.2019,
审查员 倪礼
(54)发明名称
一种基于工业系统的多源异构数据处理系
统与方法
(57)摘要
本发明提供的基于工业系统的多源异构数
据处理系统和方法, 通过采用边缘计算模块完成
一部分计算任务(对预处理后的数据进行数据清
洗、 筛选和加密处理等), 能够有效缓解 云数据中
心的计算压力, 同时对异构数据采用多路并行的
方式进行编码形成统一标识, 方便后续计算, 能
够提升处理速度, 再者, 采用边缘计算模块基于
统一编码进行数据筛选, 能够大大节省云数据中
心的数据存储开支, 同时边缘计算模块的数据筛
选也是一种高效的数据清洗方式, 能够减轻云数
据中心的计算负担, 此外, 实时检测漏洞数据, 并
直接上传云数据中心也能够满足异常报警的时
效性要求。
权利要求书3页 说明书9页 附图1页
CN 114003596 B
2022.07.12
CN 114003596 B
1.一种基于 工业系统的多源异构数据处 理系统, 其特 征在于, 包括:
多路数据采集端, 用于采集工业系统中各设备的数据; 工业系统中的设备包括: 工业主
机设备、 生产控制设备、 网络设备、 安全设备、 办公设备和工业辅助设备;
采集预处理终端, 与所述多路数据采集端连接, 用于对采集的工业系统中各设备的数
据进行预处理; 所述预处 理包括: 编码处 理、 分类处 理和漏洞数据检测;
边缘计算模块, 与所述采集预处理终端连接, 用于对预处理后的数据进行数据清洗、 筛
选和加密处理;
云数据中心, 分别与所述采集预处理终端和所述边缘计算模块连接, 用于存储预处理
后的数据和经 数据清洗、 筛 选和加密处理的数据;
所述采集预处 理终端包括:
编码单元, 与所述多路数据采集端连接, 用于对采集的工业系统中各设备的数据进行
编码, 得到编码数据;
分类单元, 与所述编码单元连接, 用于对所述编码数据进行分类, 得到分类数据; 所述
分类数据包括: 控制数据、 网络数据、 平台数据、 日志数据、 流量数据、 资产数据、 工具数据、
生产数据或漏洞数据;
多个缓冲区的缓存单元, 分别与所述分类单元和所述边缘计算模块连接, 用于缓存所
述分类数据, 并当任一缓存区满时将缓存的所述分类数据传输给所述边缘计算模块, 同时
清除满缓存区内缓存的数据;
漏洞检测单元, 与所述分类单元和所述云数据中心连接, 用于检测所述分类数据中是
否存在漏洞数据, 当存在漏洞数据时, 对存在的漏洞数据进行加密后上传给所述云数据中
心, 同时生成报警信号;
所述边缘计算模块包括:
数据清洗单 元, 与所述采集预处 理终端连接, 用于对预处 理后的数据进行 数据清洗;
数据补充单元, 与所述数据清洗单元连接, 用于采用插值法对清洗后的数据进行补充,
得到补充数据; 所述插值法包括: 随机插值法与线性插值法;
数据筛选单元, 与所述数据清洗单元连接, 用于采用基于分布度量的下采样方法对所
述补充数据进行筛 选, 得到有用数据;
加密单元, 与所述数据筛 选单元连接, 用于对所述有用数据进行加密;
所述数据筛 选单元包括:
数据距离确定子单元, 与所述数据补充单元连接, 用于采用欧氏距离度量所述补充数
据中任意两个数据间的距离;
分布度量确定子单元, 与所述数据距离确定子单元连接, 用于基于所述补充数据中各
数据的邻域根据所述距离确定各数据的分布度量; 所述邻域为以所述补充 数据中任一数据
点为中心, 以预设值 为半径形成的超球 体;
数据排序子单元, 与所述分布度量确定子单元连接, 用于基于所述分布度量将所述补
充数据中各 数据降序排列, 得到排列数据;
第一判断子单元, 与所述数据排序子单元连接, 用于判断所述排列数据中每一数据的
分布度量是否大于预设阈值, 得到第一判断结果;
第一有用数据确定子单元, 与所述判断子单元连接, 用于当所述第一判断结果为分布权 利 要 求 书 1/3 页
2
CN 114003596 B
2度量大于所述预设阈值时, 保留与该分布度量对应的数据, 并判定为有用数据;
第二判断子单元, 与所述判断子单元连接, 用于当所述第一判断结果为分布度量小于
等于所述预设阈值时, 判断与该分布度量对应的数据是否在已有有用数据的邻域内, 得到
第二判断结果;
第二有用数据确定子单元, 与所述第二判断子单元连接, 用于当所述第二判断结果为
该分布度量对应的数据不在已有有用数据的邻域内时, 确定与该分布度量对应的数据为有
用数据;
冗余数据确定子单元, 与所述第二判断子单元连接, 用于当所述第二判断结果为该分
布度量对应的数据在已有有用数据的邻域内时, 确定与该分布度量对应的数据为有用数
据。
2.根据权利要求1所述的基于工业系统的多源异构数据处理系统, 其特征在于, 还包
括:
报警模块, 与所述漏洞检测单元连接, 用于接收所述报 警信号后发出报 警; 接收报警信
号的方式为短信、 邮件或警报方式。
3.根据权利要求1所述的基于工业系统 的多源异构数据处理系统, 其特征在于, 所述多
个缓冲区包括: 生产数据缓存区、 控制数据缓存区、 日志数据缓存区、 网络数据缓存区、 流量
数据缓存区、 资产数据缓存区、 工具 数据缓存区、 平台数据缓存区和漏洞数据缓存区。
4.一种基于 工业系统的多源异构数据处 理方法, 其特 征在于, 包括:
采集工业系统中各设备的数据; 工业系统中的设备包括: 工业主机设备、 生产控制设
备、 网络设备、 安全设备、 办公设备和工业辅助设备;
对采集的工业系统中各设备的数据进行预处理; 所述预处理包括: 编码处理、 分类处理
和漏洞数据检测;
采用边缘计算模块对预处 理后的数据进行 数据清洗、 筛 选和加密处理;
采用云数据中心存 储预处理后的数据和经 数据清洗、 筛 选和加密处理的数据;
所述对采集的工业系统中各设备的数据进行 预处理, 具体包括:
对采集的工业系统中各设备的数据进行编码, 得到编码数据;
对所述编码数据进行分类, 得到分类数据; 所述分类数据包括: 控制数据、 网络数据、 平
台数据、 日志数据、 流 量数据、 资产数据、 工具 数据、 生产数据或漏洞数据;
缓存所述分类数据, 并当缓存满时将缓存的所述分类数据传输给所述边缘计算模块,
同时清除满缓存区内缓存的数据;
检测所述分类数据中是否存在漏洞数据, 当存在漏洞数据时, 对存在的漏洞数据进行
加密后上传给 所述云数据中心, 同时生成报警信号;
所述对预处 理后的数据进行 数据清洗、 筛 选和加密处理, 具体包括:
对预处理后的数据进行 数据清洗;
采用插值法对清洗后的数据进行补充, 得到补充数据;
采用基于分布度量的下采样方法对所述补充数据进行筛 选, 得到有用数据;
对所述有用数据进行加密;
所述采用基于分布度量的下采样方法对所述补充数据进行筛选, 得到有用数据, 具体
包括:权 利 要 求 书 2/3 页
3
CN 114003596 B
3
专利 一种基于工业系统的多源异构数据处理系统与方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 20:58:30上传分享