(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211029289.0
(22)申请日 2022.08.25
(71)申请人 杭州广科安德生物科技有限公司
地址 311203 浙江省杭州市萧 山区经济开
发区启迪路198号杭州湾信息港D座5
楼
(72)发明人 高俊莉 高俊顺 王炜欣 关虹
(74)专利代理 机构 杭州融方专利代理事务所
(普通合伙) 33266
专利代理师 沈相权 詹雨露
(51)Int.Cl.
G16H 50/30(2018.01)
G16H 15/00(2018.01)
G06F 16/215(2019.01)
G06F 16/23(2019.01)G06F 16/2458(2019.01)
(54)发明名称
基于体外诊断的数据分析系统及方法
(57)摘要
本发明公开了一种基于体外诊断的数据分
析系统及方法, 具体涉及数据分析技术领域, 包
括数据采集模块、 数据第一预处理模块、 数据第
二预处理模块、 第一数据分析模块、 第二数据分
析模块, 以及数据库模块, 所述第二数据分析模
块用于调用数据库信息并进行数据挖掘, 第二数
据分析模块包括健康分析单元、 预测分析单元,
具体采用数据第一预处理模块识别、 标记和采集
数据, 并通过第一数据分析模块中的个人健康分
析单元得到用户健康隐患评分, 通过第二预处理
模块中的数据修正单元减少不同设备间的误差,
便于不同设备的数据汇总, 通过第二数据分析模
块中的健康分析单元建立人群健康画 像, 得到健
康数据的形象表达 。
权利要求书2页 说明书6页 附图2页
CN 115410710 A
2022.11.29
CN 115410710 A
1.基于体外诊断的数据分析系统, 其特征在于: 包括数据采集模块、 数据第 一预处理模
块、 数据第二预 处理模块、 第一数据分析模块、 第二数据分析模块, 以及数据库模块, 所述数
据采集模块用于采集体外诊断数据并将采集的数据传输至数据第一预 处理模块; 所述数据
第一预处理模块用于识别和标记采集的数据, 标记后进 行清洗, 去除数据中异常数据, 并将
数据传输至第一数据分析模块和数据第二预处理模块; 所述第一数据分析模块用于 分析生
成个人健康报告得出个人版健康报告并结合历史诊断数据, 形成个人体外诊断数据库的完
整数据, 根据完整数据生成个人健康变化 曲线, 将得到的数据传输至个人数据库中更新得
到新的数据库; 所述数据第二预处理模块用于进一步清洗数据去除数据中个人隐私数据,
并减少不同设备产生数据误差, 并将处理后的数据汇总至数据库模块; 所述数据库模块用
于存储体外诊断产生的数据, 数据库能被第二数据分析模块调用; 所述第二数据分析模块
用于调用数据库信息并进行数据挖掘, 第二数据分析模块包括健康分析单元、 预测分析单
元, 上述模块间数据传输过程中包括加密单元, 所述加密单元通过身份验证、 授权和记账保
证数据安全。
2.根据权利要求1所述的基于体外诊断的数据分析系统, 其特征在于: 所述第 一预处理
模块包括数据识别单元、 数据 清洗单元、 数据变换单元, 所述数据识别单元用于识别数据时
间序列和诊断项目, 并将数据按照时间和体外诊断项目进行排列, 所述数据清洗单元用于
清洗数据, 得到没有缺失、 重复的数据, 所述数据变换单元通过数据规范化处理诊断数据,
通过特征二值化得到正常数据集和异常数据集, 包括下列步骤: 首先根据数据所属项目划
分为若干组, 然后分别设置每组阈值, 所述阈值为人体健康 参数范围, 最后自动判断数据是
否在阈值内, 得到正常数据集和异常数据集。
3.根据权利要求1所述的基于体外诊断的数据分析系统, 其特征在于: 所述第 一数据分
析模块包括账号登录单元、 历史数据调用单元、 个人健康分析单元, 所述账号登录单元用于
保证用户体外诊断数据的隐私性, 通过身份识别、 密码登录账号保证个人数据安全性, 所述
历史数据调用模块根据账户信息自动在数据库中调用历史体外诊断数据, 所述个人健康分
析单元用于 分析数据, 先采用时间序列分析异常数据集变化得到每个项目指标随时间变化
曲线, 再根据指标对健康影响程度设置指标权重, 利用权重计算健康隐患或疾病程度, 得到
健康隐患评分, 根据健康隐患评分向用户预警健康变化, 向用户发出保持良好习惯和定期
体检的提示。
4.根据权利要求1所述的基于体外诊断的数据分析系统, 其特征在于: 所述第 二预处理
模块包括数据修正单元、 数据规约单元, 所述数据修正单元用于去除不同设备间存在误差,
通过对比试验得到不同诊断设备间数值偏差指数后, 根据误差指数对数据进行修正, 所述
数据规约通过维度规约、 维度变换、 数值规约精简数据, 删除数据中不相关的特征, 在保留
原有判断能力的同时减少特征向量的维度, 数据规约中使用主成分分析法, 用于消除数据
冗余和数据噪声。
5.根据权利要求4所述的基于体外诊断的数据分析系统, 其特征在于: 所述主成分分析
法包括下列步骤:
步骤S1、 对所有的样本进行中心化, 中心化公式为:
步骤S2、 计算样本的协方差矩阵X XT;权 利 要 求 书 1/2 页
2
CN 115410710 A
2步骤S3、 对矩阵X XT进行特征值分解;
步骤S4、 取出最大的n ’个特征值对应的特征向量(w1, wn2), 将所有的特征向量标准化
后, 组成特 征向量矩阵W;
步骤S5、 对样本集中的每一个样本x(i), 转化为新的样本z(i)=WTx(i), 得到输出样本
集。
6.根据权利要求1所述的基于体外诊断的数据分析系统, 其特征在于: 所述健康分析单
元是一种健康画像, 通过性别、 年龄、 区域和体外诊断数据建立人群健康画像, 通过分类算
法、 聚类算法和关联分析 得到健康 画像的主 要特征, 包括下列步骤:
步骤S01、 数据导出: 从数据库中导出一个时间段的数据;
步骤S02、 提取数据特征建立基本画像, 根据决策树分类法得到内部节点和叶子节点,
所述内部节点作为主要特征, 包括性别、 年龄、 区域、 职业, 所述叶子特点表示体外诊断项
目;
步骤S03、 计算异常指标发生频率, 所述异常数据指超出正常参数范围的数据, 在基础
画像中标记指标异常发生频率;
步骤S04、 建立异常指标和疾病的关联, 将疾病信息导入基本画像得到人群健康 画像。
7.根据权利要求1 ‑6任一所述的基于体外诊断的数据分析系统 的方法, 其特征在于: 所
述方法包括下列步骤:
步骤S101、 数据采集模块采集得到体外诊断数据, 所述数据为时序数据, 数据采集依赖
于通信技术, 实行自动数据传输, 得到体外诊断初始数据库, 将得到的数据传输至第一数据
分析模块;
步骤S102、 数据第一预处理模块识别、 标记和变换采集的数据, 识别和标记基于个人身
份唯一识别数据, 包括指纹、 身份证号码、 姓名等隐私数据, 标记后通过数据清洗提高数据
质量, 然后进行数据变换, 通过特征二值化得到正常数据集和异常数据集, 最后将标记、 清
洗、 变换后的高质量数据传输 至第一数据分析模块和数据第二预处 理模块;
步骤S103、 第一数据分析模块分析接收的数据, 首先用户通过身份识别、 密码登录账
号, 在账号中查看个人诊断数据, 并结合历史诊断数据, 形成个人体外诊断数据库的完整 数
据, 采用时间序列分析异常数据集变化得到每个项目指标随时间变化 曲线, 再根据指标对
健康影响程度设置指标权重, 利用权重计算健康隐患或疾病程度, 得到健康隐患评 分, 根据
健康隐患评分向用户预警健康变化, 向用户发出保持良好习惯和定期体检的提示, 最后将
数据传输 至数据库模块;
步骤S104、 数据第二预处理模块处理数据并将处理后数据汇总至大数据库中, 第一数
据预处理模块处理后的数据汇总后得到大量数据样本, 通过数据修正减少不同设备间存在
误差, 通过维度规约、 维度变换、 数值规约精简数据, 删除数据中不相关的特征, 在保留原有
判断能力的同时减少特征向量的维度, 数据规约中使用主成分分析法, 用于消除数据冗余
和数据噪声, 数据第二预处 理模块将处 理后数据传输 至第二数据分析模块;
步骤S105、 第二数据分析模块分析预处理后数据, 通过提取数据特征建立基本画像, 再
计算异常指标发生频率并在基础画像中标记指标异常发生频率, 最后建立异常指标和疾病
的关联, 将疾病信息导入基本画像得到人群健康 画像。权 利 要 求 书 2/2 页
3
CN 115410710 A
3
专利 基于体外诊断的数据分析系统及方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:42:57上传分享