专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210688296.5 (22)申请日 2022.06.17 (71)申请人东方合智数据科技（广东）有限责任公司地址 528237 广东省佛山市南海区狮山镇强狮路2号（厂房A） C区（住所申报） (72)发明人王晓峰　 (74)专利代理机构深圳市君胜知识产权代理事务所(普通合伙) 44268 专利代理师陈专 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备 (57)摘要本发明公开了一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备，所述方法包括：导入多个数据处理工具，用于对数据、中文文字和语义进行相关处理；载入原纸行情记录文本，加载文本，去除停用词、去除数字以及去除左右空格，利用jieba中文分词库将中文句子拆分成多个词组，统计词频出现次数并去重后输出结果；根据已完成的分词词组进行词嵌入，将文本转化为数值向量表示，并将数值向量输入到第一层词向量神经网络进行训练和运算；基于第二层神经网络和第三层神经网络为汇聚层进行数据模型训练并对文本识别分类，定义字典对词性分类标注，将预测结果保存并写入HDF5文件。本发明实现了行情数据信息标注分类，关键词统计和行情预测。权利要求书2页说明书9页附图3页 CN 115146059 A 2022.10.04 CN 115146059 A 1.一种基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述基于瓦楞纸行业的原纸行情数据处理方法包括：导入多个数据处理工具，用于对数据、中文文字和语义进行相关处理；载入原纸行情记录文本，调用jieba分词库加载文本，基于开源组件自带的停用词典去除停用词、去除数字以及去除左右空格，利用jieba中文分词库将中文句子拆分成多个词组，统计词频出现次数并去重后输出结果；根据已完成的分词词组进行词嵌入，将文本转化为数值向量表示，并将数值向量输入到第一层词向量神经网络进行训练和运算；选择LSTM搭建第二层神经网络，第三层神经网络为汇聚层，基于第二层神经网络和第三层神经网络为汇聚层进行数据模型训练并对文本识别分类，定义字典对词性分类标注，将预测结果保存并写入HDF5文件。 2.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述数据处理工具包括： numpy、 matelotlib、 jieba、 NLTK、 math， re、 gensim、 tensorflow和 keras； numpy用于提供高性能的矩阵运算； matelotlib用于观测数据变化和分布； jieba是一个Python中文分词组件； NLTK为自然语言工具； math用于数学函数运算； re为正则化处理工具； gensim用于将中文转换成Word2Vec向量； tensorflow是一个基于数据流编程的符号数学系统； keras是开源的深度学习框架。 3.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述根据已完成的分词词组进行词嵌入，将文本转化为数值向量表示，并将数值向量输入到第一层词向量神经网络进行训练和运算，具体包括：根据已完成的分词词组进行词嵌入，创建字典并设置2万个高频词汇，嵌入矩阵行数设置为16行；每一个语句最大长度为200，数据模型选择Sequential序贯模型，配置训练集和测试集数据用于模型训练调用，第一层词向量神经网络搭建完成。 4.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述第一层词向量神经网络用于将向量数据加载到序贯模型，通过add传入所有参数加载到深度学习神经网络层，进行运算准备。 5.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述第二层神经网络选择LSTM时序型运算模式并设置128个神经元，形成一个128*128的图形化矩阵用于运算转化后的文字向量。 6.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述第三层神经网络对图像中的数据进行分类，输出层选择计算公式函数，作为最终数据展示。 7.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法，其特征在于，所述预测结果包括：原纸行情信息利好、无影响和较差行情中。 8.一种基于瓦楞纸行业的原纸行情数据处理系统，其特征在于，所述基于瓦楞纸行业的原纸行情数据处理系统包括：工具导入模块，用于导入多个数据处理工具，用于对数据、中文文字和语义进行相关处理；分词识别模块，用于载入原纸行情记录文本，调用jieba分词库加载文本，基于开源组权　利　要　求　书 1/2 页 2 CN 115146059 A 2件自带的停用词典去除停用词、去除数字以及去除左右空格，利用jieba中文分词库将中文句子拆分成多个词组，统计词频出现次数并去重后输出结果；词嵌入模块，用于根据已完成的分词词组进行词嵌入，将文本转化为数值向量表示，并将数值向量输入到第一层词向量神经网络进行训练和运算；识别分类模块，用于选择LSTM搭建第二层神经网络，第三层神经网络为汇聚层，基于第二层神经网络和第三层神经网络为汇聚层进行数据模型训练并对文本识别分类，定义字典对词性分类标注，将预测结果保存并写入HDF5文件。 9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于瓦楞纸行业的原纸行情数据处理程序，所述基于瓦楞纸行业的原纸行情数据处理程序被所述处理器执行时实现如权利要求 1‑7任一项所述的基于瓦楞纸行业的原纸行情数据处理方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于瓦楞纸行业的原纸行情数据处理程序，所述基于瓦楞纸行业的原纸行情数据处理程序被处理器执行时实现如权利要求1 ‑7任一项所述的基于瓦楞纸行业的原纸行情数据处理方法的步骤。权　利　要　求　书 2/2 页 3 CN 115146059 A 3

专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备

专利一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备