(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210444327.2
(22)申请日 2022.04.26
(65)同一申请的已公布的文献号
申请公布号 CN 114566289 A
(43)申请公布日 2022.05.31
(73)专利权人 之江实验室
地址 310023 浙江省杭州市余杭区文一西
路1818号人工智能小镇10号楼
(72)发明人 李冠男 李劲松 池胜强 王宇清
朱伟伟 田雨 周天舒
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G16H 50/70(2018.01)
G16H 50/50(2018.01)
G06K 9/62(2022.01)G06V 10/762(2022.01)
(56)对比文件
CN 113723566 A,2021.1 1.30
CN 112990921 A,2021.0 6.18
CN 108280479 A,2018.07.13
US 2022100601 A1,202 2.03.31
张昕伟等.基 于区块链的电子投票选 举系统
研究分析. 《电子技 术应用》 .2017,(第1 1期),
宗春梅等.基于权重的改进K-means算法应
用研究. 《高师理科 学刊》 .2017,(第1 1期),
欧阳丽炜等.基 于区块链的传染病监测与预
警技术. 《智能科 学与技术学报》 .2020,(第02
期),
Cao J.A n ovel false data i njection
attack detecti on model of the cyber-
physical po wer system. 《IE EE Access》 .2020,
第8卷
审查员 孙旭
(54)发明名称
一种基于多中心临床数据 防作弊分析的疾
病预测系统
(57)摘要
本发明公开了一种基于多中心临床数据防
作弊分析的疾病预测系统, 本发 明利用区块链技
术共享伪数据, 并让所有医疗机构在本地利用加
权聚类模型根据伪数据计算数据质量系数, 保证
临床数据量少的医疗机构的真实临床数据能够
被充分利用的同时还使得医疗机构无法对本地
临床数据质量评价结果进行作弊。 本发明设计的
模型参数 投票迭代机制, 每轮迭代中根据投票结
果保留一家医疗机构提供的模型参数, 可以使 得
质量好的临床数据在模型训练 中发挥更大作用。
本发明设计的投票权的初始化和更新机制, 以及
在迭代投票过程中的作弊检测机制, 让临床数据
质量好的医疗机构拥有更多投票权, 也防止了单
家或多家医疗机构勾结篡改投票结果。
权利要求书3页 说明书10页 附图4页
CN 114566289 B
2022.08.09
CN 114566289 B
1.一种基于多中心临床数据防作弊分析的疾病预测系统, 其特 征在于, 包括:
初始化模块: 用于发布疾病预测模型的协同分析建模协议, 决定参与协同分析建模的
医疗机构组成协同分析建模区块链;
数据质量评估 模块, 包括伪数据生成子模块和伪数据质量评估子模块;
伪数据生成子模块: 用于各家医疗机构在本地利用临床数据训练生成对抗网络, 并生
成伪数据, 各家医疗机构生成的伪数据的数据量相等;
伪数据质量评估子模块: 用于将各家医疗机构生成的伪数据上链, 各家医疗机构在本
地利用加权聚类模型根据伪数据计算数据质量系 数, 具体为, 根据加权聚类模型 的参数求
得医疗机构生成的伪数据中特征的数据质量评 分, 根据加权聚类模型的轮廓系数与多样性
阈值计算得到医疗机构生成的伪数据中特征的数据多样性评分, 医疗机构的数据质量系数
为医疗机构生成的伪数据中所有特 征的数据质量评分与数据多样性评分之积的加权平均;
协同分析建模 模块, 包括模型训练子模块和投票子模块;
模型训练子模块: 用于各家医疗机构在本地利用临床数据训练单中心疾病预测模型,
并将单中心疾病预测模型的模型参数 上链;
投票子模块: 用于进行多轮迭代 投票, 在每轮投票中, 动态更新各家医疗机构根据 数据
质量系数和之前轮次投票情况得到的投票权, 各家医疗机构在本地利用临床数据计算所有
单中心疾病 预测模型 的损失, 结合自身投票权对单中心疾病 预测模型进行投票, 并将投票
结果上链, 票数最多的单中心疾病预测模型胜出, 并作为本轮迭代得到的疾病预测模型, 进
入下一轮迭代; 在迭代过程中进行作弊检测, 将未通过作弊检测的医疗机构从协同分析建
模区块链中剔除。
2.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统, 其特
征在于, 所述初始 化模块中, 所述协同分析建模协 议的内容包括疾病预测模型的模型结构、
模型初始化参数、 模 型训练所需特征和标签、 模型损失函数、 生成伪数据用的生成对抗网络
模型结构和参数、 加权聚类模型的模型 结构和参数。
3.根据权利要求1所述的一种基于多中心临床数据防作弊分析的疾病预测系统, 其特
征在于, 所述伪数据质量评估子模块中, 数据质量系数的计算过程如下:
对于训练疾病预测模型的任一特征
, 医疗机构
生成的伪数据中特征
的数据质量
评分记为
;M家医疗机构 共同组成数据集
, 其中
表示医疗机
构
生成的伪数据中特征
的数据, 将
记为
, 其中
表示第i
个样本,N为伪数据的数据量, 利用
训练加权聚类模型
, 根据加权聚类模型
的
参数求得 数据质量评分
;
加权聚类模型
训练完成后, 计算每个样本中每个 元素与跟该样本同一聚类的样本
的对应元素距离的均值和每个样本中每个元素与跟该样本不同聚类的样本的对应元素距
离的均值, 得到
的每一列的轮廓系数, 根据 轮廓系数与多样性阈值计算得到医疗机构
生成的伪数据中特 征
的数据多样性评分
;权 利 要 求 书 1/3 页
2
CN 114566289 B
2医疗机构
的数据质量系数为医疗机构
生成的伪数据中所有特征的数据质量评分
与数据多样性评分之积的加权平均。
4.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统, 其特
征在于, 所述伪数据质量评估子模块中, 利用
训练加权聚类模型
, 包括:
设加权聚类模型
的聚类个数为 C, 聚类表征矩阵为 U, 聚类中心的坐标集合为
, 其中
表示第c个聚类中心坐标, 记
为
中第j个元素
到
中第j个元素
的距离;M家医疗机构对应的特征
的数据质量评分构成数据质
量评分集 合
;
加权聚类模型
的损失函数定义为
, 其
中
表示聚类表征矩阵 U中第i行第c列的元素, 通 过训练迭代来减小
的损失函 数, 训
练迭代步骤如下:
(1)随机设定初始化聚类中心的坐标集 合Z、 数据质量评分集 合
和聚类表征矩阵 U;
(2)通过以下公式更新聚类表征矩阵 U;
再计算新的
, 若
保持不变, 则停止迭代, 否则进入步骤(3);
(3)通过公式
更新聚类中心的坐标集合 Z, 再计算新的
, 若
保持不变, 则停止迭代, 否则进入步骤(4);
(4) 通 过 公 式
更 新 数 据 质量 评 分 集 合
, 其 中
, 再计算新的
, 若
保持不变, 则停止迭代,
否则返回步骤(2)迭代计算。
5.根据权利要求3所述的一种基于多中心临床数据防作弊分析的疾病预测系统, 其特
征在于, 所述伪数据质量评估子模块中,
的第j列轮廓系数
的计算公式为
, 其中
为每个样本中每个元素与跟该样本同一聚类的样本的对应元素
距离的均值,
为每个样本中每个元素与跟该样本不同聚类的样本的对应元素距离的均
值;权 利 要 求 书 2/3 页
3
CN 114566289 B
3
专利 一种基于多中心临床数据防作弊分析的疾病预测系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:31:39上传分享