说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210663868.4 (22)申请日 2022.06.14 (65)同一申请的已公布的文献号 申请公布号 CN 114756661 A (43)申请公布日 2022.07.15 (73)专利权人 湖南正宇软件技 术开发有限公司 地址 410000 湖南省长 沙市长沙高新开发 区尖山路18号长沙中电软件园二期 A10栋103、 203 (72)发明人 刘跃华 王新  (74)专利代理 机构 湖南岑信知识产权代理事务 所(普通合伙) 43275 专利代理师 谷萍 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 110162634 A,2019.08.23 CN 111858907 A,2020.10.3 0 CN 110705212 A,2020.01.17 JP 2011141587 A,201 1.07.21 伍东等.海量数据并行压缩算法研究. 《山西 电子技术》 .2007,(第02期), 张云锋.基 于OpenMP的AD PCM算法并行化及 效率分析. 《科技情 报开发与经济》 .2012,(第21 期), 审查员 王辞 (54)发明名称 一种文本处 理方法和文本处 理系统 (57)摘要 本发明公开了一种文本处理方法和文本处 理系统, 方法包括: 服务器接收待处理文本, 并在 第一缓存区中排序形成文本队列; 获取待处理文 本的特征片段; 将文本队列中的待处理文本的特 征片段依次存储至第二缓存区中; 第二处理器从 第二缓存区中提取待处理文本的特征片段; 第二 处理器对提取的特征片段进行初步处理得到初 步结果, 将初步结果返回至服务器; 服务器将初 步结果返回至用户终端; 第一处理器从第一缓存 区中依次提取各个待处理文本进行完整处理, 根 据完整处理结果形成精确结果, 将精确结果返回 至服务器; 服务器将精确结果返回至用户终端。 本发明有利于解决现有技术中用户等待文本处 理时间过长的缺陷。 权利要求书4页 说明书12页 附图1页 CN 114756661 B 2022.08.23 CN 114756661 B 1.一种文本处 理方法, 其特 征在于, 包括如下步骤: 服务器接收各个用户终端发送的待处理文本, 并在所述服务器的第 一缓存区中排序 形 成文本队列, 等待各个第一处理器按照所述文本队列的排列顺序提取所述待处理文本进 行 文本处理; 获取用户终端对待处 理文本进行词频统计确定的所述待处 理文本的特 征片段; 将所述文本队列中的待处理文本的特征片段按照文本队列中的顺序, 依次存储至所述 服务器的第二缓存区中; 第二处理器从所述第二缓存区中依次提取待处 理文本的特 征片段; 所述第二处理器对提取的所述特征片段进行初步处理得到初步结果, 将所述初步结果 返回至所述 服务器; 所述服务器将所述初步结果返回至用户终端; 所述第一处理器从所述第一缓存区中依次提取各个待处理文本进行完整处理得到精 确结果, 将所述精确结果返回至服 务器; 所述服务器将所述精确结果返回至所述用户终端。 2.根据权利要求1所述的文本处理方法, 其特征在于, 所述获取用户终端对待处理文本 进行词频统计确定的所述待处 理文本的特 征片段的步骤, 包括: 所述用户终端对向所述 服务器发送的每 个待处理文本进行词频统计; 通过词频统计筛选出每个所述待处理文本中词频排名靠前的单词作为典型词, 标记所 述典型词在所述待处 理文本中所在的文本位置; 统计标注出的文本位置中, 出现典型词次数最多的文本片段; 将出现典型词次数最多的文本片段作为所述特 征片段; 将所述特 征片段向所述 服务器发送。 3.根据权利要求1所述的文本处 理方法, 其特 征在于, 所述文本处 理方法, 还 包括: 所述第二处 理器判断所述文本队列中的各个所述待处 理文本是否均已完成初步处 理; 若否, 根据所述文本队列中的各个所述待处理文本的排列顺序, 对未进行初步处理的 所述待处 理文本继续进行初步处 理; 若是, 控制所述第二处 理器执行所述第一处 理器的完整处 理任务。 4.根据权利要求1所述的文本处理方法, 其特征在于, 所述服务器连接有多个处理器, 所述服务器接收各个用户终端发送的待处理文本, 并在所述服务器的第一缓存区中排序形 成文本队列, 等待各个第一处理器按照所述文本队列的排列顺序提取所述待处理文本进 行 文本处理的步骤之前, 还 包括: 获取与所述 服务器连接的空 闲的处理器; 获取与所述 服务器连接的剩余处 理时间不超过 预设时间的处 理器; 将空闲的处理器与 所述剩余处理时间不超过预设时间的处理器添加至处理器群组, 对 所述处理器群组进行剩余处 理时间排序; 将所述处 理器群组中剩余处 理时间最短的编号第一个处 理器作为所述第二处 理器; 将所述处 理器群组中其 余的所述处 理器作为所述第一处 理器。 5.根据权利要求1所述的文本处理方法, 其特征在于, 所述服务器接收各个用户终端发 送的待处 理文本, 并在所述 服务器的第一缓存区中排序形成文本队列的步骤之后, 还 包括:权 利 要 求 书 1/4 页 2 CN 114756661 B 2所述第二处理器识别所述文本队列中的每个所述待处理文本对应的所述用户终端的 类别; 根据所述用户终端的类别确定所述待处 理文本的文本类别; 根据所述文本类别将所述待处理文本存储至所述服务器的所述第一缓存区的不同类 别的存储单元; 在所述第一缓存区中形成记录文本队列中各个待处理文本信 息的文本链表, 其中文本 链表中按照待处理文本的排序 记载有各个待处理文本信息, 和每个所述待处理文本的具体 存储单元。 6.根据权利要求5所述的文本处 理方法, 其特 征在于, 所述文本处 理方法, 还 包括: 生成用于对各个第一处 理器进行剩余处 理时间排序的顺序链 表; 在所述第一处理器的数量小于所述待处理文本的数量 时, 将文本链表根据第 一处理器 的数量分成多个文本链 表单元; 根据所述顺序链表中各个第 一处理器的排序, 将各个所述文本链表单元中的每个待处 理文本与所述 顺序链表中的第一处 理器建立对应链 表。 7.根据权利要求6所述的文本处 理方法, 其特 征在于, 所述文本处 理方法, 还 包括: 在所述服务器接收到用户终端发送的待处 理文本后, 向用户终端返回标准反馈时间; 接收各个所述用户终端向所述服务器发出的超时反馈信息, 其中, 超时反馈信息指的 是超过服务器向用户终端返回的标准反馈时间仍未收到精确结果的信息, 超时反馈信息包 括滞后处 理的待处 理文本; 根据所述超时反馈信息和所述对应链 表, 确定处 理滞后的所述第一处 理器; 从所述文本链 表中确定滞后的所述待处 理文本对应的文本链 表单元; 判断所述文本链表单元中排列在所述滞后的待处理文本之后的待处理文本是否处理 完毕; 若是, 将之后处理的所述待处理文本分配给所述顺序链表中位于滞后的第 一处理器之 后的第一处 理器。 8.根据权利要求7 所述的文本处 理方法, 其特 征在于, 所述文本处 理方法, 还 包括: 获取预设的侦测周期; 所述接收各个所述用户终端向所述 服务器发出的超时反馈信息的步骤之后, 还 包括: 获取所述第二处 理器在当前侦测周期已处 理的所有特 征片段的总字数; 获取各个所述第一处 理器在当前侦测周期已处 理的所有 待处理文本的总字数; 判断滞后的所述第一处 理器是否超过 预设的允许滞后条件; 若是, 搜索所述处理器群组之外的空闲处理器作为新增 处理器, 将滞后的所述第一处 理器替换为所述 新增处理器; 其中, 确定新增处 理器的具体步骤为: ; 其中, AT表示第二 处理器在当前的第T个侦测周期已处理的总字数, 表示第二 处理 器在当前的第T个侦测周期已处理完的第i个特征片段的字数, 表示第二处理器在当前权 利 要 求 书 2/4 页 3 CN 114756661 B 3

.PDF文档 专利 一种文本处理方法和文本处理系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本处理方法和文本处理系统 第 1 页 专利 一种文本处理方法和文本处理系统 第 2 页 专利 一种文本处理方法和文本处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:09:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。