(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211212383.X
(22)申请日 2022.09.28
(71)申请人 国网山东省电力公司淄博供电公司
地址 255000 山东省淄博市张店区北 北京
路67号
(72)发明人 王伟 张慧英 许磊 孙宇斌
韩超 于洋
(74)专利代理 机构 青岛发思特专利商标代理有
限公司 37212
专利代理师 黄玲玉
(51)Int.Cl.
G06Q 10/06(2012.01)
G06F 16/36(2019.01)
G06F 40/295(2020.01)
(54)发明名称
基于知识图谱的审计风险度量方法
(57)摘要
本发明涉及审 计管理技术领域, 具体涉及一
种基于知识图谱的审计风险度量方法, 包括以下
步骤: 步骤一: 收集项目审计报告语料, 构建操作
集合U; 步骤二: 对操作集合U进行预处理, 获取审
计风险待定知识节点; 步骤三: 构建风险知识点
之间的关系连边, 构成审计风险知识图谱; 步骤
四: 构建工程项目审计风险计算方法; 步骤五: 对
设定时间段内的工程项目审计风险值排序, 进行
等级划分, 提供一种不依赖专业审计人员, 能够
识别工程项目审计风险的基于知识图谱的审计
风险度量方法。
权利要求书3页 说明书6页 附图1页
CN 115545468 A
2022.12.30
CN 115545468 A
1.一种基于知识图谱的审计风险度量方法, 其特 征在于, 包括以下步骤:
步骤一: 收集项目审计报告语料, 构建操作集 合U;
步骤二: 对操作集 合U进行预处理, 获取审计风险待定知识 节点;
步骤三: 构建风险知识点之间的关系连边, 构成审计风险知识图谱;
步骤四: 构建工程项目审计风险计算方法;
步骤五: 对设定时间段内的工程项目审计风险值, 进行等级划分。
2.根据权利要求1所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤一
中构建操作集 合U的计算公式如下:
其中, 公示(1)中n是审计管理中的工程项目总数, U表示操作集合, P1, P2...Pn分别是第
1、 2、 ...n个工程项目。
3.根据权利要求1所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤二
中采用文本挖掘技术对操作集合U中的数据进行处理, 获取命名实体和它们之间的对应关
系。
4.根据权利要求3所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤二
包括以下子步骤:
2‑1: 将操作集合U, 按照整句进行分割, 随后进行分词处 理, 去掉停用词;
2‑2: 通过Spacy识别命名实体其对应的单词为ki, i=1, 2…n, n为整数, 构成集合KG=
{k1, k2...kn}, 作为审 计风险事件中的备选头节 点或结果节 点, 按照国家审计数据字典 内容
进行分词得到单词ckj, j=1, 2 …p, 其中p为整数, 构成参照实体集合CH_KG={ck1,
ck2...ckp};
2‑3: 采用Spacy及zh_web_lg模型, 为集合KG、 集合CH_KG中 的命名实体和参照实体训练
词向量赋值, 得到 两个维度为3 00的词项量 集合;
2‑4: 将集合KG中的任 意备选实体ki与CH_KG所有参照实体进行词向量余弦相似度比较,
如果相似度大于 50%, 则将ki作为审计风险事 件节点加入集 合V中。
5.根据权利要求4所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤2 ‑
3中, 两个维度为3 00的词项量 集合的计算公式如下:
KG′={k1[w1, 1, w1, 2...w1, 300], k2[w2, 1, w2, 2...w2, 300]...kn[wn, 1, wn, 2...wn, 300]};
CH_KG′={ck1[cw1, 1, cw1, 2...cw1, 300], ck2[cw2, 1, cw2, 2...cw2, 300]...ckp[cwp, 1, cwp,
2...cwp, 300]};
式中, KG′是命名实体对应词向量构成的词向量集合, 命名实体ki的词向量记为ki[wi, 1,
wi, 2...wi, l...wi, 300], wi, l是第l维的取值, wi, l取值范围是[0, 1], l=1, 2, ...300; CH_KG ′是
参照命名实体对应词向量构成的词向量集合, 其中参照命名实体ckj的词向量记为ckj
[cwj, 1, cwj, 2...cwj, l...cwj, 300], cwj, l是第l维的取值, cwj, l取值范围是[0, 1], l=1, 2,
...300。
6.根据权利要求5所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤2 ‑
4中, 余弦相似度计算公式如下:权 利 要 求 书 1/3 页
2
CN 115545468 A
2其中ki[wi, 1, wi, 2...wi, 300]是命名实体ki的词向量, ckj[cwj, 1, cwj, 2...cwj, 300]是参照命
名实体ckj的词向量, wil是命名实体ki词向量第l维的取值, cwj, l是第l维的取值。
7.根据权利要求4所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤三
中通过语义角色标注方法构建风险知识点之间的关系连边, 步骤三包括以下子步骤:
3‑1: 初始化G(V, L)为知识图谱网络, 其中V是由步骤二生成, 并再 次输入所有审计报告
文本集合U;
3‑2: 将操作集合U按照整句进行分割, 保留名词+名词、 名词+动词、 动词+名词、 形容词+
名词、 名词+形容词句法分析结构, 通过Spacy语义角色标注工具包给句子中的词标记语义
角色标签, 筛选出动作施事者标签对应的词A0, 核心谓词标签对应的词Vb及受事者标签对
应的词A1, 若词满足A0∈V and A1∈V, 则在知识图谱网络G中添加连边lij(vi, wlij, TRi,
vj), vi, vj分别对应A0和A1, w lij是连边的权 重, 根据连边出现次数进行 更新, TRi填入Vb;
3‑3: 删除G(V, L)中的孤立节点。
8.根据权利要求7所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤四
包括以下子步骤:
4‑1: 输入待评价项目审计报告语料, 生成关键词集 合;
4‑2: 遍历知识图谱G(V, L), 生成子图G ’(V’, L’);
4‑3: 计算节点v ′i的度及
表示度为
的节点在 知识图谱G的出现概 率;
4‑4: 计算子图中相互连接节点之间的互信息, 计算公式为:
式中,
表示节点v ′i和v′j的联合分布概 率;
4‑5: 计算工程项目m的审计风险值riskm, 计算取值越大, 风险越大。
9.根据权利要求8所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述审计风
险值riskm的计算公式如下:
其中, Lengthk是子图G’中第k条路径的路径长度,
综合了多个知
识节点关系中蕴含的风险,
表示节点v ′i和v′j的联合分布概率,
表
示度为
的节点在 知识图谱G的出现概 率。
10.根据权利要求7所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤
五中四分位法对工程项目审计风险值进行等级划分, 包括以下子步骤:
5‑1: 计算所有工程项目审计风险值riskm, 按照从小到大排序;
5‑2: 按照四分位法找到四分位数: Q1、 Q2、 Q3、 Q 4;
5‑3: riskm取值在0~Q1的记为R1类, Q1~Q2的记为R2类, Q2~Q3的记为R3类, Q3~Q4的权 利 要 求 书 2/3 页
3
CN 115545468 A
3
专利 基于知识图谱的审计风险度量方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:25:45上传分享