说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619403.9 (22)申请日 2022.05.31 (71)申请人 广东省综治信息中心 地址 510000 广东省广州市越秀区执信南 路3号广东 通建大楼3楼 (72)发明人 颜煦阳 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 潘登 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/31(2019.01) G06F 40/216(2020.01) G06K 9/62(2022.01) G06V 10/74(2022.01)G06V 10/764(2022.01) G06V 30/10(2022.01) G06V 30/19(2022.01) (54)发明名称 一种文件处理方法、 装置、 电子设备及存储 介质 (57)摘要 本发明实施例公开了一种文件处理方法、 装 置、 电子设备及存储介质。 该方法包括: 获取待处 理文件, 并将所述待处理文件进行解析确定所述 待处理文件的属性信息; 其中, 所述属性信息包 括待处理文件的标题、 正文以及段落; 获取所述 待处理文件正文的关键词, 并将所述关键词进行 定义、 维护以及更新; 依据关键词相似度确定所 述关键词所属主题词, 并将所述关键词自动分 类; 其中, 所述主题词包括至少两个关键词。 采用 本发明实施例的技术方案, 提取文件关键词并对 所述关键词进行分类, 依据关键词对文件进行处 理以及检索, 提高了文件处理与定向查询应用效 率。 权利要求书2页 说明书9页 附图4页 CN 115269832 A 2022.11.01 CN 115269832 A 1.一种文件处 理方法, 其特 征在于, 所述方法包括: 获取待处理文件, 并将所述待处理文件进行解析确定所述待处理文件的属性信息; 其 中, 所述属性信息包括待处 理文件的标题、 正文以及段落; 获取所述待处 理文件正文的关键词, 并将所述关键词进行定义、 维护以及更新; 依据关键词相似度确定所述关键词所属主题词, 并将所述关键词自动分类; 其中, 所述 主题词包括至少两个关键词。 2.根据权利要求1所述的方法, 其特征在于, 所述获取待处理文件, 并将所述待处理文 件进行解析确定所述待处 理文件的属性信息, 包括: 通过文件 源数据接口获取待处 理文件, 并将所述待处 理文件保存至文件待解析库; 实时获取增量文件, 并将所述增量文件保存至文件待解析库。 3.根据权利要求1所述的方法, 其特征在于, 所述获取待处理文件, 并将所述待处理文 件进行解析确定所述待处 理文件的属性信息, 还 包括: 对所述待处理文件进行预处理; 所述预处理包括灰度化、 二值化、 降噪、 字符切分以及 归一化; 将预处理后的待处理文件进行文字检测以及特征提取, 确定所述待处理文件的属性信 息。 4.根据权利要求1所述的方法, 其特征在于, 所述获取所述待处理文件的关键词, 并将 所述关键词进行定义、 维护以及更新, 包括: 对所述待处 理文件的正文 进行关键词提取, 并建立文件关键词库; 对所述关键词进行分类, 并将所述关键词进行定义、 维护与更新; 其中, 所述更新包括 将增量文件所提取 的关键词更新至文件关键词库; 关键词类型包括字符识别自动提取类、 业务通用类以及黑名单类。 5.根据权利要求1所述的方法, 其特征在于, 所述依据关键词相似度确定所述关键词所 属主题词, 并将所述关键词自动分类, 包括: 将所述关键词分别与主题词内各关键词 进行相似度计算, 确定所述关键词与主题词内 各关键词的相似度值; 依据所述关键词与主题词内各关键词的相似度值, 确定所述关键词与主题词间的目标 相似度, 并将所述关键词自动归类至所属主题词。 6.根据权利要求5所述的方法, 其特征在于, 所述依据所述关键词与主题词内各关键词 的相似度值, 确定所述关键词与主题词间的目标相似度, 并将所述关键词自动归类至所属 主题词, 包括: 依据所述关键词与主题词内各关键词的相似度 值, 采用V=(∑VI1 ×0.2+∑VI2 ×0.5+ ∑VI3×1)确定所述关键词与所述主题词间的目标相 似度; 其中, 所述V表征所述关键词与 主题词间的目标相 似度值, VI1表征相 似度值小于第一预设阈值的相 似度值, VI2表征相 似 度值大于第一预设阈值且小于第二预设阈值的相似度值, VI3表征相似度值大于第二预设 阈值的相似度值; 所述第二阈值大于第一阈值; 若所述目标相似度值大于预设目标相似度阈值, 则将所述关键词归类于所述主题词。 7.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 对所述待处理文件进行多维度检索确定检索文件, 并显示检索结果; 其中, 所述多维度权 利 要 求 书 1/2 页 2 CN 115269832 A 2检索包括依据待处理文件的标题、 关键词以及主题词进行多维度检索; 所述检索文件按匹 配度从高到低显示。 8.一种文件处 理装置, 其特 征在于, 所述装置包括: 文件获取模块, 用于获取待处理文件, 并将所述待处理文件进行解析确定所述待处理 文件的属性信息; 其中, 所述属性信息包括待处 理文件的标题、 正文以及段落; 关键词提取模块, 用于获取所述待处理文件正文的关键词, 并将所述关键词进行定义、 维护以及更新; 关键词分类模块, 用于依据关键词相似度确定所述关键词所属主题词, 并将所述关键 词自动分类; 其中, 所述主题词包括至少两个关键词。 9.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现权利要求1 ‑7中任一所述的文件处 理方法。 10.一种包含计算机可执行指令的存储介质, 其特征在于, 所述计算机可执行指令在由 计算机处 理器执行时用于执 行如权利要求1 ‑7中任一所述的文件处 理方法。权 利 要 求 书 2/2 页 3 CN 115269832 A 3
专利 一种文件处理方法、装置、电子设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-18 22:32:46
上传分享
举报
下载
原文档
(564.1 KB)
分享
友情链接
T-ZZB 2980—2022 平板显示用视窗功能面板.pdf
GB-T 38634.4-2020 系统与软件工程 软件测试 第4部分:测试技术.pdf
GB-T 6730.65-2009 铁矿石 全铁含量的测定 三氯化钛还原重铬酸钾滴定法 常规方法.pdf
DB64-T 1963—2023 机关事务信息化系统运行管理规范 宁夏回族自治区.pdf
GB-T 35276-2017 信息安全技术 SM2密码算法使用规范.pdf
T-CESA 1036—2019 信息技术 人工智能 机器学习模型及系统的质量要素和测试方法.pdf
DB34-T 3704-2020 公路工程路基动态回弹模量现场测试规程 安徽省.pdf
国家电网 谈元鹏 电力领域知识图谱技术进展与应用实践.pdf
GB-T 30596-2014 温拌沥青混凝土.pdf
GB-T 36047-2018 电力信息系统安全检查规范.pdf
GB-T 42435-2023 海岸侵蚀监测与灾害损失评估技术规范.pdf
JR-T 0083-2013 人身保险伤残评定标准及代码.pdf
民航 MH-T 6050-2009 行李处理系统 带式输送机.pdf
工业互联网标识管理办法.pdf
GB-T 21063.4-2007 政务信息资源目录体系 第4部分:政务信息资源分类.pdf
SY-T 6540-2021 钻井液完井液损害油层室内评价方法.pdf
GB-T 38631-2020 信息技术 安全技术 GB-T 22080具体行业应用 要求.pdf
SC-T 8012-2011 渔业船舶无线电通信、航行及信号设备配备要求.pdf
GB-T 31460-2015 高压直流换流站无功补偿与配置技术导则.pdf
HJ 1049-2019 水质 4种硝基酚类化合物的测定 液相色谱-三重四极杆质谱法.pdf
1
/
16
评价文档
赞助2.5元 点击下载(564.1 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。