说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210594239.0 (22)申请日 2022.05.27 (71)申请人 华中科技大 学 地址 430074 湖北省武汉市洪山区珞喻路 1037号 (72)发明人 康玲 周丽伟 温云亮 李江珊 田潘 叶金旺 (74)专利代理 机构 华中科技大 学专利中心 42201 专利代理师 王颖翀 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06Q 50/00(2012.01) (54)发明名称 一种基于双层fastText模型的水务舆情大 数据分析方法 (57)摘要 本发明公开了一种基于双层fastText模型 的水务舆情大数据分析方法, 利用增量式爬虫在 互联网中实时获取海量水务舆情文本数据, 基于 中文常用停用词表及分词技术对水务舆情文本 数据进行预处理, 然后将预处理后的词和词组输 入词向量化模型中构造文本特征向量后输入到 训练后的fastText模型中, 计算每个文本 特征向 量的类别概率, 对获取到的水务舆情文本数据进 行主题分类与情感分析, 最终得到水务舆情文本 数据的主题类别及情感特征。 本发 明所提供的方 法信息获取速度快、 时效性强, 能实时从互联网 中获取水务舆情文本, 对文本分类和情感分析的 速度更快, 且能根据分类信息自动将其分配至相 关水务部门, 有助于水务管 理人员针对性地处理 水务舆情数据, 感知水务舆情态 势。 权利要求书1页 说明书5页 附图2页 CN 114996450 A 2022.09.02 CN 114996450 A 1.一种基于双 层fastText模型的水务舆情大 数据分析 方法, 其特 征在于, 包括: 训练阶段: 采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本依次 进行去停用 词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向量的 主题类别及情感特 征; 应用阶段: 对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本特征 向量, 并将其输入至训练后的双层fastT ext模型, 得到分析结果, 即水务舆情文本对应的主 题类别及情感特 征。 2.如权利要求1所述的方法, 其特征在于, 对水务舆情文本依次进行去停用词、 分词处 理后得到词和词组, 将所述词和词组输入至词向量化模型进行词向量化处理, 得到文本特 征向量。 3.如权利要求2所述的方法, 其特 征在于, 所述词向量 化模型为 n‑gram语言模型。 4.如权利要求1所述的方法, 其特征在于, 基于停用词表对所述水务舆情文本进行去停 用词处理; 其中, 所述停用词表包括 通用领域停用词及水务领域停用词。 5.如权利 要求1所述的方法, 其特征在于, 所述双层fastText模型的第一层为主题分类 模型, 第二层为情感分析模型。 6.如权利要求1所述的方法, 其特征在于, 采用增量式定时爬虫技术从网络平台获取水 务舆情文本 。 7.如权利要求1所述的方法, 其特征在于, 所述主题类别为供水、 水费、 水污染、 水灾害、 水工程中的任一种; 所述情感特 征为正面、 中性、 负面中的任一种。 8.一种基于双层fastText模型的水务舆情大数据分析系统, 其特征在于, 包括: 计算机 可读存储介质和处 理器; 所述计算机可读存 储介质用于存 储可执行指令; 所述处理器用于读取所述计算机可读存储介质中存储的可执行指令, 执行如权利要求 1‑7任一项所述的方法。权 利 要 求 书 1/1 页 2 CN 114996450 A 2一种基于双层fa stText模型的水务舆情大数据分析方 法 技术领域 [0001]本发明属于大数据挖掘领域, 更具体地, 涉及一种基于双层fastText模型的水务 舆情大数据分析 方法。 背景技术 [0002]在当今智能网络时代, 市民们通过网络媒体反映各种问题和建议的诉求日益凸 显, 逐渐成为反映社会舆情的主要载体。 社 交媒体数据是网络大数据的重要组成部 分, 具有 参与度广泛、 时空动态信息丰富、 实时性强、 网络信息量大和内容综合程度高等特点, 被越 来越多地应用到舆情信息的获取和监测之中, 逐渐成为相关管理部门获取民众反馈信息的 重要手段。 因此, 对网络大数据中蕴含的城市水务舆情信息进 行抽取和分析, 构建集数据获 取、 信息挖掘、 情感分析于一体的水务舆情大数据分析系统, 可以提升水务管 理部门的态势 感知能力, 并给予技 术辅助决策支持。 [0003]针对主题分类和舆情分析的研究包括主题挖掘、 情感分析、 话题识别和 关键词提 取等。 舆情分析最早应用于社会民意调查中, 随着互联网的发展, 逐渐被应用于多 领域热点 舆情信息的监测与追踪。 目前采用传统的水务舆情分析 方法存在以下问题: [0004](1)传统水务舆情信息的获取需要人工登录相应网站后, 从网站上有选择的下载 相关的水务舆情信息, 水务舆情信息的获取滞后、 且获取时间长; [0005](2)传统的水务舆情信息 的分析需要人工对获取的水务舆情信息进行分析后, 分 配至有关水务部门进行处 理, 时效性较差, 难以满足应急管理工作要求 等不足。 发明内容 [0006]针对现有技术的以上缺陷或改进需求, 本 发明提供了一种基于双层fastText模型 的水务舆情大数据分析方法, 针对传统水务舆情获取与分析滞后、 耗时长等问题, 本发明运 用词向量计算和fastText模 型, 基于浅层网络设计, 通过保留文本的低层信息, 实现对 水务 舆情文本数据的主题分类与情感分析, 最终得到水务舆情文本数据的主题类别及情感特 征。 [0007]为实现上述目的, 按照本发明的第一方面, 提供了一种基于双层fastText模型的 水务舆情大 数据分析 方法, 包括: [0008]训练阶段: [0009]采用训练集训练双层fastText模型; 所述训练集中的训练样本为对水务舆情文本 依次进行去停用词、 分词及词向量化处理后得到的文本特征向量, 标签为所述文本特征向 量的主题类别及情感特 征; [0010]应用阶段: [0011]对待分析的水务舆情文本依次进行去停用词、 分词及词向量化处理后得到的文本 特征向量, 并将其输入至训练后的双层fastText模 型, 得到分析结果, 即水务舆情文本对应 的主题类别及情感特 征。说 明 书 1/5 页 3 CN 114996450 A 3
专利 一种基于双层fastText模型的水务舆情大数据分析方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 14:07:30
上传分享
举报
下载
原文档
(546.7 KB)
分享
友情链接
GB-T 6052-2011 工业液体二氧化碳.pdf
GB-T 39155-2020 金属和合金的腐蚀 海港设施的阴极保护.pdf
GB-T 33356-2022 新型智慧城市评价指标.pdf
思度安全-DSMM-013 数据加密管理规范V1.0.pdf
DL-T 294.3-2019 发电机灭磁及转子过电压保护装置技术条件 第3部分 转子过电压保护.pdf
DB34-T 4303-2022 社会治安防控体系实战业务应用系统运维管理规范 安徽省.pdf
T-CCPS 0001—2023 易学文化水平测试标准.pdf
T-CSTM 00065—2019 丙烯酸催化剂.pdf
中金互联网 腾讯大模型及智能应用技术发布会纪要20230619.pdf
NY-T 2207-2019 轮式拖拉机能效等级评价.pdf
DB3708-T 10-2022 公共机构节能监管平台建设指南 济宁市.pdf
关于加快推进国有企业数字化转型工作的通知.pdf
GB-T 4084-2018 自应力混凝土管.pdf
GB-T 15925-2010 锑矿石化学分析方法 锑量测定.pdf
TB-T 2887-2022 电气化铁路变电所用变压器.pdf
DB23-T 3278—2022 应急指挥中心基础设施与支撑系统建设规范 黑龙江省.pdf
T-GZBD 10—2022 大数据容灾备份建设指南.pdf
SL-T 247-2020 水文资料整编规范.pdf
GB-T 18916.1-2021 取水定额 第1部分:火力发电.pdf
DB23-T 3477—2023 黑龙江省企业数字化采购指南 黑龙江省.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(546.7 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。