(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210538427.1
(22)申请日 2022.05.18
(71)申请人 吉林大学
地址 130000 吉林省长 春市前进大街269 9
号
(72)发明人 白洪涛 贾燕鹏 陈哲楷 郑修远
刘轩赫 郭军豪
(74)专利代理 机构 北京远大卓悦知识产权代理
有限公司 1 1369
专利代理师 王雪娇
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于内容关键词和神经网络的图书馆
书籍分类方法
(57)摘要
本发明公开了一种基于内容关键词和神经
网络的图书馆书籍分类方法, 包括: 步骤一、 建立
8层基于双向长短期记忆神经网络的模型, 包括
依次连接的嵌入层、 空间随机失活层、 长短期记
忆层、 第一随机失活层、 全 连接层、 第二随机失活
层、 全连接层和激活函数层; 步骤二、 将待分类的
图书随机抽取一页进行文本识别, 将识别后的文
本进行数据预处理获得向量数据; 步骤三、 将所
述向量数据输入所述模型中, 获得预测分类结
果。 本发明结合循环神经网络对自然语 言处理的
准确性, 同时通过长短期记忆神经网络在很大程
度上解决循环神经网络在较长时间步存在的梯
度爆炸和梯度消失问题, 实现准确的中文图书分
类功能。
权利要求书2页 说明书5页 附图2页
CN 115062105 A
2022.09.16
CN 115062105 A
1.一种基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在于, 包括如下步
骤:
步骤一、 建立8层基于双向长短期记忆神经网络的模型, 包括依次连接的嵌入层、 空间
随机失活层、 长 短期记忆层、 第一随机失活层、 第一全连接层、 第二随机失活层、 第二全连接
层和激活函数层;
步骤二、 将待分类的图书随机抽取一页进行文本识别, 将识别后的文本进行数据预处
理获得向量数据;
步骤三、 将所述向量数据输入所述模型中, 获得 预测分类结果。
2.如权利要求1所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述嵌入层嵌入维度为128, 所述空间随机失活层参数为0.25, 所述第一随机失活层参
数为0.25, 所述第二随机失活层参数为0.3 。
3.如权利要求2所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述激活函数层为Sigmo ld层。
4.如权利要求3所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述长短期记 忆层的遗 忘门的计算公式为:
ft=σ(Wf·[ht‑1,xt]+bf);
式中, ft为经过LS TM层需要遗忘丢弃的状态信息, σ 为通过sigmoid层将输入映射到0到1
之间的值, Wf为遗忘门权重矩阵, ht‑1为t‑1时刻结点LSTM层的状态输出, xt为t时刻的输入,
bf为遗忘门偏置值。
5.如权利要求4所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述长短期记 忆层的输入门的计算公式为:
it=σ(Wi·[ht‑1,xt]+bi);
式中, it为更新过后的输入信息, Wi为输入门权 重矩阵, bi为输入门偏置值。
6.如权利要求5所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述长短期记 忆层的输出门的计算公式为:
ot=σ(Wo·[ht‑1,xt]+bo);
式中, ot为LSTM层的输出信息, Wo为输出门权 重矩阵, bo为输出门偏置值。
7.如权利要求6所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述长短期记 忆层的记 忆细胞更新的计算公式为:
ht=ot×tanh(Ct);
式中, ht为记忆细胞t时刻的最终输出, Ct为t时刻记忆细胞状态, Ct‑1为t‑1时刻记忆细
胞状态,
为候选向量, Wc为记忆细胞权 重矩阵, bc为记忆细胞偏置值。
8.如权利要求7所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述数据预处 理包括依次进行的文本预处 理和文本向量 化。
9.如权利要求8所述的基于内容关键词和神经网络的图书馆书籍分类方法, 其特征在权 利 要 求 书 1/2 页
2
CN 115062105 A
2于, 所述文本预处 理包括如下步骤:
步骤1、 将文本中的书名、 关键词和摘要合并成关键信息, 再与关键信息所在行对应的
中国图书分类号 生成新的数据集;
步骤2、 剔除所述关键信息中的非中文信息和无用的中文信息;
步骤3、 对所述关键信息进行分词, 从词序列中剔除包 含于停用词表中的词。
10.如权利要求9所述的基于 内容关键词和神经网络的图书馆书籍分类方法, 其特征在
于, 所述文本向量 化包括如下步骤:
步骤1、 对所述词序列进行 数字编码;
步骤2、 将数字编码后的词序列进行截取或填充为长度为10 0的词向量;
步骤3、 将所述词向量 转换为张量形式获得向量数据。权 利 要 求 书 2/2 页
3
CN 115062105 A
3
专利 一种基于内容关键词和神经网络的图书馆书籍分类方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:07:27上传分享