说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210594239.0 (22)申请日 2022.05.27 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 康玲 周丽伟 温云亮 李江珊  田潘 叶金旺  (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 王颖翀 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06Q 50/00(2012.01) (54)发明名称 一种基于双层fastText模型的水务舆情大 数据分析方法 (57)摘要 本发明公开了一种基于双层fastText模型 的水务舆情大数据分析方法, 利用增量式爬虫在 互联网中实时获取海量水务舆情文本数据, 基于 中文常用停用词表及分词技术对水务舆情文本 数据进行预处理, 然后将预处理后的词和词组输 入词向量化模型中构造文本特征向量后输入到 训练后的fastText模型中, 计算每个文本 特征向 量的类别概率, 对获取到的水务舆情文本数据进 行主题分类与情感分析, 最终得到水务舆情文本 数据的主题类别及情感特征。 本发 明所提供的方 法信息获取速度快、 时效性强, 能实时从互联网 中获取水务舆情文本, 对文本分类和情感分析的 速度更快, 且能根据分类信息自动将其分配至相 关水务部门, 有助于水务管 理人员针对性地处理 水务舆情数据, 感知水务舆情态 势。 权利要求书1页 说明书5页 附图2页 CN 114996450 A 2022.09.02 CN 114996450 A 1.一种基于双 层fastText模型的水务舆情大 数据分析 方法, 其特 征在于, 包括: 训练阶段: 采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本依次 进行去停用 词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向量的 主题类别及情感特 征; 应用阶段: 对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本特征 向量, 并将其输入至训练后的双层fastT ext模型, 得到分析结果, 即水务舆情文本对应的主 题类别及情感特 征。 2.如权利要求1所述的方法, 其特征在于, 对水务舆情文本依次进行去停用词、 分词处 理后得到词和词组, 将所述词和词组输入至词向量化模型进行词向量化处理, 得到文本特 征向量。 3.如权利要求2所述的方法, 其特 征在于, 所述词向量 化模型为 n‑gram语言模型。 4.如权利要求1所述的方法, 其特征在于, 基于停用词表对所述水务舆情文本进行去停 用词处理; 其中, 所述停用词表包括 通用领域停用词及水务领域停用词。 5.如权利 要求1所述的方法, 其特征在于, 所述双层fastText模型的第一层为主题分类 模型, 第二层为情感分析模型。 6.如权利要求1所述的方法, 其特征在于, 采用增量式定时爬虫技术从网络平台获取水 务舆情文本 。 7.如权利要求1所述的方法, 其特征在于, 所述主题类别为供水、 水费、 水污染、 水灾害、 水工程中的任一种; 所述情感特 征为正面、 中性、 负面中的任一种。 8.一种基于双层fastText模型的水务舆情大数据分析系统, 其特征在于, 包括: 计算机 可读存储介质和处 理器; 所述计算机可读存 储介质用于存 储可执行指令; 所述处理器用于读取所述计算机可读存储介质中存储的可执行指令, 执行如权利要求 1‑7任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114996450 A 2一种基于双层fa stText模型的水务舆情大数据分析方 法 技术领域 [0001]本发明属于大数据挖掘领域, 更具体地, 涉及一种基于双层fastText模型的水务 舆情大数据分析 方法。 背景技术 [0002]在当今智能网络时代, 市民们通过网络媒体反映各种问题和建议的诉求日益凸 显, 逐渐成为反映社会舆情的主要载体。 社 交媒体数据是网络大数据的重要组成部 分, 具有 参与度广泛、 时空动态信息丰富、 实时性强、 网络信息量大和内容综合程度高等特点, 被越 来越多地应用到舆情信息的获取和监测之中, 逐渐成为相关管理部门获取民众反馈信息的 重要手段。 因此, 对网络大数据中蕴含的城市水务舆情信息进 行抽取和分析, 构建集数据获 取、 信息挖掘、 情感分析于一体的水务舆情大数据分析系统, 可以提升水务管 理部门的态势 感知能力, 并给予技 术辅助决策支持。 [0003]针对主题分类和舆情分析的研究包括主题挖掘、 情感分析、 话题识别和 关键词提 取等。 舆情分析最早应用于社会民意调查中, 随着互联网的发展, 逐渐被应用于多 领域热点 舆情信息的监测与追踪。 目前采用传统的水务舆情分析 方法存在以下问题: [0004](1)传统水务舆情信息的获取需要人工登录相应网站后, 从网站上有选择的下载 相关的水务舆情信息, 水务舆情信息的获取滞后、 且获取时间长; [0005](2)传统的水务舆情信息 的分析需要人工对获取的水务舆情信息进行分析后, 分 配至有关水务部门进行处 理, 时效性较差, 难以满足应急管理工作要求 等不足。 发明内容 [0006]针对现有技术的以上缺陷或改进需求, 本 发明提供了一种基于双层fastText模型 的水务舆情大数据分析方法, 针对传统水务舆情获取与分析滞后、 耗时长等问题, 本发明运 用词向量计算和fastText模 型, 基于浅层网络设计, 通过保留文本的低层信息, 实现对 水务 舆情文本数据的主题分类与情感分析, 最终得到水务舆情文本数据的主题类别及情感特 征。 [0007]为实现上述目的, 按照本发明的第一方面, 提供了一种基于双层fastText模型的 水务舆情大 数据分析 方法, 包括: [0008]训练阶段: [0009]采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本 依次进行去停用词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向 量的主题类别及情感特 征; [0010]应用阶段: [0011]对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本 特征向量, 并将其输入至训练后的双层fastText模 型, 得到分析结果, 即水务舆情文本对应 的主题类别及情感特 征。说 明 书 1/5 页 3 CN 114996450 A 3

.PDF文档 专利 一种基于双层fastText模型的水务舆情大数据分析方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于双层fastText模型的水务舆情大数据分析方法 第 1 页 专利 一种基于双层fastText模型的水务舆情大数据分析方法 第 2 页 专利 一种基于双层fastText模型的水务舆情大数据分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:30上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。