说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211212383.X (22)申请日 2022.09.28 (71)申请人 国网山东省电力公司淄博供电公司 地址 255000 山东省淄博市张店区北 北京 路67号 (72)发明人 王伟 张慧英 许磊 孙宇斌  韩超 于洋  (74)专利代理 机构 青岛发思特专利商标代理有 限公司 37212 专利代理师 黄玲玉 (51)Int.Cl. G06Q 10/06(2012.01) G06F 16/36(2019.01) G06F 40/295(2020.01) (54)发明名称 基于知识图谱的审计风险度量方法 (57)摘要 本发明涉及审 计管理技术领域, 具体涉及一 种基于知识图谱的审计风险度量方法, 包括以下 步骤: 步骤一: 收集项目审计报告语料, 构建操作 集合U; 步骤二: 对操作集合U进行预处理, 获取审 计风险待定知识节点; 步骤三: 构建风险知识点 之间的关系连边, 构成审计风险知识图谱; 步骤 四: 构建工程项目审计风险计算方法; 步骤五: 对 设定时间段内的工程项目审计风险值排序, 进行 等级划分, 提供一种不依赖专业审计人员, 能够 识别工程项目审计风险的基于知识图谱的审计 风险度量方法。 权利要求书3页 说明书6页 附图1页 CN 115545468 A 2022.12.30 CN 115545468 A 1.一种基于知识图谱的审计风险度量方法, 其特 征在于, 包括以下步骤: 步骤一: 收集项目审计报告语料, 构建操作集 合U; 步骤二: 对操作集 合U进行预处理, 获取审计风险待定知识 节点; 步骤三: 构建风险知识点之间的关系连边, 构成审计风险知识图谱; 步骤四: 构建工程项目审计风险计算方法; 步骤五: 对设定时间段内的工程项目审计风险值, 进行等级划分。 2.根据权利要求1所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤一 中构建操作集 合U的计算公式如下: 其中, 公示(1)中n是审计管理中的工程项目总数, U表示操作集合, P1, P2...Pn分别是第 1、 2、 ...n个工程项目。 3.根据权利要求1所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤二 中采用文本挖掘技术对操作集合U中的数据进行处理, 获取命名实体和它们之间的对应关 系。 4.根据权利要求3所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤二 包括以下子步骤: 2‑1: 将操作集合U, 按照整句进行分割, 随后进行分词处 理, 去掉停用词; 2‑2: 通过Spacy识别命名实体其对应的单词为ki, i=1, 2…n, n为整数, 构成集合KG= {k1, k2...kn}, 作为审 计风险事件中的备选头节 点或结果节 点, 按照国家审计数据字典 内容 进行分词得到单词ckj, j=1, 2 …p, 其中p为整数, 构成参照实体集合CH_KG={ck1, ck2...ckp}; 2‑3: 采用Spacy及zh_web_lg模型, 为集合KG、 集合CH_KG中 的命名实体和参照实体训练 词向量赋值, 得到 两个维度为3 00的词项量 集合; 2‑4: 将集合KG中的任 意备选实体ki与CH_KG所有参照实体进行词向量余弦相似度比较, 如果相似度大于 50%, 则将ki作为审计风险事 件节点加入集 合V中。 5.根据权利要求4所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤2 ‑ 3中, 两个维度为3 00的词项量 集合的计算公式如下: KG′={k1[w1, 1, w1, 2...w1, 300], k2[w2, 1, w2, 2...w2, 300]...kn[wn, 1, wn, 2...wn, 300]}; CH_KG′={ck1[cw1, 1, cw1, 2...cw1, 300], ck2[cw2, 1, cw2, 2...cw2, 300]...ckp[cwp, 1, cwp, 2...cwp, 300]}; 式中, KG′是命名实体对应词向量构成的词向量集合, 命名实体ki的词向量记为ki[wi, 1, wi, 2...wi, l...wi, 300], wi, l是第l维的取值, wi, l取值范围是[0, 1], l=1, 2, ...300; CH_KG ′是 参照命名实体对应词向量构成的词向量集合, 其中参照命名实体ckj的词向量记为ckj [cwj, 1, cwj, 2...cwj, l...cwj, 300], cwj, l是第l维的取值, cwj, l取值范围是[0, 1], l=1, 2, ...300。 6.根据权利要求5所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤2 ‑ 4中, 余弦相似度计算公式如下:权 利 要 求 书 1/3 页 2 CN 115545468 A 2其中ki[wi, 1, wi, 2...wi, 300]是命名实体ki的词向量, ckj[cwj, 1, cwj, 2...cwj, 300]是参照命 名实体ckj的词向量, wil是命名实体ki词向量第l维的取值, cwj, l是第l维的取值。 7.根据权利要求4所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤三 中通过语义角色标注方法构建风险知识点之间的关系连边, 步骤三包括以下子步骤: 3‑1: 初始化G(V, L)为知识图谱网络, 其中V是由步骤二生成, 并再 次输入所有审计报告 文本集合U; 3‑2: 将操作集合U按照整句进行分割, 保留名词+名词、 名词+动词、 动词+名词、 形容词+ 名词、 名词+形容词句法分析结构, 通过Spacy语义角色标注工具包给句子中的词标记语义 角色标签, 筛选出动作施事者标签对应的词A0, 核心谓词标签对应的词Vb及受事者标签对 应的词A1, 若词满足A0∈V  and A1∈V, 则在知识图谱网络G中添加连边lij(vi, wlij, TRi, vj), vi, vj分别对应A0和A1, w lij是连边的权 重, 根据连边出现次数进行 更新, TRi填入Vb; 3‑3: 删除G(V, L)中的孤立节点。 8.根据权利要求7所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤四 包括以下子步骤: 4‑1: 输入待评价项目审计报告语料, 生成关键词集 合; 4‑2: 遍历知识图谱G(V, L), 生成子图G ’(V’, L’); 4‑3: 计算节点v ′i的度及 表示度为 的节点在 知识图谱G的出现概 率; 4‑4: 计算子图中相互连接节点之间的互信息, 计算公式为: 式中, 表示节点v ′i和v′j的联合分布概 率; 4‑5: 计算工程项目m的审计风险值riskm, 计算取值越大, 风险越大。 9.根据权利要求8所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述审计风 险值riskm的计算公式如下: 其中, Lengthk是子图G’中第k条路径的路径长度, 综合了多个知 识节点关系中蕴含的风险, 表示节点v ′i和v′j的联合分布概率, 表 示度为 的节点在 知识图谱G的出现概 率。 10.根据权利要求7所述的基于知识图谱的审计风险度量方法, 其特征在于, 所述步骤 五中四分位法对工程项目审计风险值进行等级划分, 包括以下子步骤: 5‑1: 计算所有工程项目审计风险值riskm, 按照从小到大排序; 5‑2: 按照四分位法找到四分位数: Q1、 Q2、 Q3、 Q 4; 5‑3: riskm取值在0~Q1的记为R1类, Q1~Q2的记为R2类, Q2~Q3的记为R3类, Q3~Q4的权 利 要 求 书 2/3 页 3 CN 115545468 A 3

PDF文档 专利 基于知识图谱的审计风险度量方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识图谱的审计风险度量方法 第 1 页 专利 基于知识图谱的审计风险度量方法 第 2 页 专利 基于知识图谱的审计风险度量方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:25:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。