专利 一种文本处理方法和文本处理系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210663868.4 (22)申请日 2022.06.14 (65)同一申请的已公布的文献号申请公布号 CN 114756661 A (43)申请公布日 2022.07.15 (73)专利权人湖南正宇软件技术开发有限公司地址 410000 湖南省长沙市长沙高新开发区尖山路18号长沙中电软件园二期 A10栋103、 203 (72)发明人刘跃华　王新　 (74)专利代理机构湖南岑信知识产权代理事务所(普通合伙) 43275 专利代理师谷萍 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (56)对比文件 CN 110162634 A,2019.08.23 CN 111858907 A,2020.10.3 0 CN 110705212 A,2020.01.17 JP 2011141587 A,201 1.07.21 伍东等.海量数据并行压缩算法研究. 《山西电子技术》 .2007,(第02期), 张云锋.基于OpenMP的AD PCM算法并行化及效率分析. 《科技情报开发与经济》 .2012,(第21 期), 审查员王辞 (54)发明名称一种文本处理方法和文本处理系统 (57)摘要本发明公开了一种文本处理方法和文本处理系统，方法包括：服务器接收待处理文本，并在第一缓存区中排序形成文本队列；获取待处理文本的特征片段；将文本队列中的待处理文本的特征片段依次存储至第二缓存区中；第二处理器从第二缓存区中提取待处理文本的特征片段；第二处理器对提取的特征片段进行初步处理得到初步结果，将初步结果返回至服务器；服务器将初步结果返回至用户终端；第一处理器从第一缓存区中依次提取各个待处理文本进行完整处理，根据完整处理结果形成精确结果，将精确结果返回至服务器；服务器将精确结果返回至用户终端。本发明有利于解决现有技术中用户等待文本处理时间过长的缺陷。权利要求书4页说明书12页附图1页 CN 114756661 B 2022.08.23 CN 114756661 B 1.一种文本处理方法，其特征在于，包括如下步骤：服务器接收各个用户终端发送的待处理文本，并在所述服务器的第一缓存区中排序形成文本队列，等待各个第一处理器按照所述文本队列的排列顺序提取所述待处理文本进行文本处理；获取用户终端对待处理文本进行词频统计确定的所述待处理文本的特征片段；将所述文本队列中的待处理文本的特征片段按照文本队列中的顺序，依次存储至所述服务器的第二缓存区中；第二处理器从所述第二缓存区中依次提取待处理文本的特征片段；所述第二处理器对提取的所述特征片段进行初步处理得到初步结果，将所述初步结果返回至所述服务器；所述服务器将所述初步结果返回至用户终端；所述第一处理器从所述第一缓存区中依次提取各个待处理文本进行完整处理得到精确结果，将所述精确结果返回至服务器；所述服务器将所述精确结果返回至所述用户终端。 2.根据权利要求1所述的文本处理方法，其特征在于，所述获取用户终端对待处理文本进行词频统计确定的所述待处理文本的特征片段的步骤，包括：所述用户终端对向所述服务器发送的每个待处理文本进行词频统计；通过词频统计筛选出每个所述待处理文本中词频排名靠前的单词作为典型词，标记所述典型词在所述待处理文本中所在的文本位置；统计标注出的文本位置中，出现典型词次数最多的文本片段；将出现典型词次数最多的文本片段作为所述特征片段；将所述特征片段向所述服务器发送。 3.根据权利要求1所述的文本处理方法，其特征在于，所述文本处理方法，还包括：所述第二处理器判断所述文本队列中的各个所述待处理文本是否均已完成初步处理；若否，根据所述文本队列中的各个所述待处理文本的排列顺序，对未进行初步处理的所述待处理文本继续进行初步处理；若是，控制所述第二处理器执行所述第一处理器的完整处理任务。 4.根据权利要求1所述的文本处理方法，其特征在于，所述服务器连接有多个处理器，所述服务器接收各个用户终端发送的待处理文本，并在所述服务器的第一缓存区中排序形成文本队列，等待各个第一处理器按照所述文本队列的排列顺序提取所述待处理文本进行文本处理的步骤之前，还包括：获取与所述服务器连接的空闲的处理器；获取与所述服务器连接的剩余处理时间不超过预设时间的处理器；将空闲的处理器与所述剩余处理时间不超过预设时间的处理器添加至处理器群组，对所述处理器群组进行剩余处理时间排序；将所述处理器群组中剩余处理时间最短的编号第一个处理器作为所述第二处理器；将所述处理器群组中其余的所述处理器作为所述第一处理器。 5.根据权利要求1所述的文本处理方法，其特征在于，所述服务器接收各个用户终端发送的待处理文本，并在所述服务器的第一缓存区中排序形成文本队列的步骤之后，还包括：权　利　要　求　书 1/4 页 2 CN 114756661 B 2所述第二处理器识别所述文本队列中的每个所述待处理文本对应的所述用户终端的类别；根据所述用户终端的类别确定所述待处理文本的文本类别；根据所述文本类别将所述待处理文本存储至所述服务器的所述第一缓存区的不同类别的存储单元；在所述第一缓存区中形成记录文本队列中各个待处理文本信息的文本链表，其中文本链表中按照待处理文本的排序记载有各个待处理文本信息，和每个所述待处理文本的具体存储单元。 6.根据权利要求5所述的文本处理方法，其特征在于，所述文本处理方法，还包括：生成用于对各个第一处理器进行剩余处理时间排序的顺序链表；在所述第一处理器的数量小于所述待处理文本的数量时，将文本链表根据第一处理器的数量分成多个文本链表单元；根据所述顺序链表中各个第一处理器的排序，将各个所述文本链表单元中的每个待处理文本与所述顺序链表中的第一处理器建立对应链表。 7.根据权利要求6所述的文本处理方法，其特征在于，所述文本处理方法，还包括：在所述服务器接收到用户终端发送的待处理文本后，向用户终端返回标准反馈时间；接收各个所述用户终端向所述服务器发出的超时反馈信息，其中，超时反馈信息指的是超过服务器向用户终端返回的标准反馈时间仍未收到精确结果的信息，超时反馈信息包括滞后处理的待处理文本；根据所述超时反馈信息和所述对应链表，确定处理滞后的所述第一处理器；从所述文本链表中确定滞后的所述待处理文本对应的文本链表单元；判断所述文本链表单元中排列在所述滞后的待处理文本之后的待处理文本是否处理完毕；若是，将之后处理的所述待处理文本分配给所述顺序链表中位于滞后的第一处理器之后的第一处理器。 8.根据权利要求7 所述的文本处理方法，其特征在于，所述文本处理方法，还包括：获取预设的侦测周期；所述接收各个所述用户终端向所述服务器发出的超时反馈信息的步骤之后，还包括：获取所述第二处理器在当前侦测周期已处理的所有特征片段的总字数；获取各个所述第一处理器在当前侦测周期已处理的所有待处理文本的总字数；判断滞后的所述第一处理器是否超过预设的允许滞后条件；若是，搜索所述处理器群组之外的空闲处理器作为新增处理器，将滞后的所述第一处理器替换为所述新增处理器；其中，确定新增处理器的具体步骤为：；其中， AT表示第二处理器在当前的第T个侦测周期已处理的总字数，表示第二处理器在当前的第T个侦测周期已处理完的第i个特征片段的字数，表示第二处理器在当前权　利　要　求　书 2/4 页 3 CN 114756661 B 3

专利 一种文本处理方法和文本处理系统

专利一种文本处理方法和文本处理系统