说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688296.5 (22)申请日 2022.06.17 (71)申请人 东方合智数据科技 (广东) 有限责任 公司 地址 528237 广东省佛山市南海区狮山 镇 强狮路2号 (厂房A) C区 (住所申报) (72)发明人 王晓峰  (74)专利代理 机构 深圳市君胜知识产权代理事 务所(普通 合伙) 44268 专利代理师 陈专 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于瓦楞纸行业的原纸行情数据处理 方法及相关 设备 (57)摘要 本发明公开了一种基于瓦楞纸行业的原纸 行情数据处理方法及相关设备, 所述方法包括: 导入多个数据处理工具, 用于对数据、 中文文字 和语义进行相关处理; 载入原纸行情记录文本, 加载文本, 去除停用词、 去除数字以及去除左右 空格, 利用jieba中文分词库将中文句子拆分成 多个词组, 统计词频出现次数并去重后输出结 果; 根据已完成的分词词组进行词嵌入, 将文本 转化为数值向量表示, 并将数值向量输入到第一 层词向量神经网络进行训练和运算; 基于第二层 神经网络和第三层神经网络为汇聚层进行数据 模型训练并对文本识别分类, 定义字典对词性分 类标注, 将预测结果保存并写入HDF5文件。 本发 明实现了 行情数据信息标注分类, 关键词统计和 行情预测。 权利要求书2页 说明书9页 附图3页 CN 115146059 A 2022.10.04 CN 115146059 A 1.一种基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述基于瓦楞纸行业 的原纸行情数据处 理方法包括: 导入多个数据处 理工具, 用于对数据、 中文 文字和语义进行相关处 理; 载入原纸行情记录文本, 调用jieba分词库加载文本, 基于开源组件自带的停用词典去 除停用词、 去除数字以及去除左右空格, 利用jieba中文分词库将中文句子拆分成多个词 组, 统计词频 出现次数并去重后输出 结果; 根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并将数值向量输入 到第一层词向量神经网络进行训练和运 算; 选择LSTM搭建第二层神经网络, 第三层神经网络为汇聚层, 基于第二层神经网络和第 三层神经网络为汇 聚层进行数据模型训练并对文本识别分类, 定义字典对词性分类标注, 将预测结果保存并写入HDF5文件。 2.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 数据处理工具包括: numpy、 matelotlib、 jieba、 NLTK、 math, re、 gensim、 tensorflow和 keras; numpy用于提供高性 能的矩阵运算; matelotlib用于观测数据变化和分布; jieba是 一个Python中文分词组件; NLTK为自然语言工具; math用于数学函数运算; re为正则化处理 工具; gensim用于将中文转换成Word2Vec向量; tensorflow是一个基于数据流编程的符号 数学系统; keras是开源的深度学习框架。 3.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并将数值向量输入到第 一层词向量神经网络进行训练和运 算, 具体包括: 根据已完成的分词词组进行词嵌入, 创建字典并设置2万个 高频词汇, 嵌入矩阵行数设 置为16行; 每一个语句最大长度为200, 数据模型选择Sequential序 贯模型, 配置训练集和测试集 数据用于模型训练调用, 第一层词向量神经网络搭建完成。 4.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第一层词向量神经网络用于将向量数据加载到序贯模型, 通过add传入所有参数加载到深 度学习神经网络层, 进行运 算准备。 5.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第二层神经网络选择LSTM时序型运算模式并设置128个神经元, 形成一个128*128的图形化 矩阵用于运 算转化后的文字向量。 6.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 第三层神经网络对图像中的数据进行分类, 输出层选择计算公式函数, 作为 最终数据展示。 7.根据权利要求1所述的基于瓦楞纸行业的原纸行情数据处理方法, 其特征在于, 所述 预测结果包括: 原纸行情信息利好、 无影响和较差行情中。 8.一种基于瓦楞纸行业的原纸行情数据处理系统, 其特征在于, 所述基于瓦楞纸行业 的原纸行情数据处 理系统包括: 工具导入模块, 用于导入多个数据处理工具, 用于对数据、 中文文字和语义进行相关处 理; 分词识别模块, 用于载入原纸行情记录文本, 调用jieba分词库加载文本, 基于开源组权 利 要 求 书 1/2 页 2 CN 115146059 A 2件自带的停用词典去除停用词、 去除数字以及去除左右空格, 利用jieba中文分词 库将中文 句子拆分成多个词组, 统计词频 出现次数并去重后输出 结果; 词嵌入模块, 用于根据已完成的分词词组进行词嵌入, 将文本转化为数值向量表示, 并 将数值向量输入到第一层词向量神经网络进行训练和运 算; 识别分类模块, 用于选择LSTM搭建第二层神经网络, 第三层神经网络为汇聚层, 基于第 二层神经网络和 第三层神经网络为汇聚层进 行数据模型训练并对文本识别分类, 定义字典 对词性分类标注, 将预测结果保存并写入HDF5文件。 9.一种终端, 其特征在于, 所述终端包括: 存储器、 处理器及存储在所述存储器上并可 在所述处理器上运行的基于瓦楞纸行业的原 纸行情数据处理程序, 所述基于瓦楞纸行业的 原纸行情数据处理程序被所述处理器执行时实现如权利要求 1‑7任一项所述的基于瓦楞纸 行业的原纸行情数据处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有基于瓦楞 纸行业的原 纸行情数据处理程序, 所述基于瓦楞纸行业的原 纸行情数据处理程序被处理器 执行时实现如权利要求1 ‑7任一项所述的基于瓦楞纸行业的原纸行情数据处理方法的步 骤。权 利 要 求 书 2/2 页 3 CN 115146059 A 3

.PDF文档 专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备 第 1 页 专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备 第 2 页 专利 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:08:19上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。