说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210710638.9 (22)申请日 2022.06.22 (71)申请人 上海人工智能创新中心 地址 200232 上海市徐汇区云锦路701号 37、 38层 申请人 上海申康医院发展中心 (72)发明人 王延峰 王兴鹏 张文宏 徐捷  石虎伟 张昊澄  (74)专利代理 机构 上海智晟知识产权代理事务 所(特殊普通 合伙) 31313 专利代理师 张瑞莹 李镝的 (51)Int.Cl. G06F 16/9535(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 16/951(2019.01) G06F 16/215(2019.01) G06F 40/205(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于大数据的舆情监控与分析系统及 方法 (57)摘要 本发明提供一种基于大数据的舆情监控与 分析方法, 首先根据待监控主题, 确定检索词, 然 后获取舆情数据并存储, 其中, 舆情数据包括舆 情新闻及其评论, 接下来基于舆情数据, 提取舆 情热词, 并对舆情数据进行情感分类及量化分 析, 最后根据舆情热词及量化分析结果形成分析 报告。 权利要求书2页 说明书7页 附图1页 CN 115098773 A 2022.09.23 CN 115098773 A 1.一种基于大 数据的舆情监控与分析 方法, 其特 征在于, 包括: 根据待监控主题, 确定检索词; 根据所述检索词, 获取舆情数据, 其中所述舆情数据包括舆情新闻及其评论; 基于所述舆情数据, 提取舆情热词; 对所述舆情数据进行情感分类, 并进行量 化分析; 以及 根据所述舆情热词及量 化分析结果形成分析报告。 2.如权利要求1所述的方法, 其特 征在于, 所述检索词的确定包括: 根据待监控主题, 确定基础检索词; 以及 基于词向量技术, 进行语义相似度分析, 以获取与所述基础检索词的词向量相似的新 词, 并将所述 新词作为迭代检索词。 3.如权利要求2所述的方法, 其特 征在于, 所述词向量 根据如下步骤训练得到: 将获取的部分或全部 舆情数据作为无监 督训练语料; 对所述无监 督训练语料进行清洗, 包括: 分词、 去除符号及停用词; 以及 使用词向量模型对清洗后的语料进行训练, 得到词向量。 4.如权利要求1所述的方法, 其特 征在于, 所述舆情数据通过爬虫技 术获取。 5.如权利要求4所述的方法, 其特征在于, 通过爬虫技术获取舆情数据包括每间隔指定 时长, 执行一次以下动作: 在指定网站的热搜榜中检索包 含所述检索词的话题; 以及 选取所述话题下热度最高的舆情新闻, 并获取其对应的评论。 6.如权利要求1所述的方法, 其特 征在于, 所述舆情热词的提取包括: 对所述舆情新闻的标题进行分词; 对符合预定词性的关键词进行词频统计, 并按照词频从高到低进行排序; 以及 确定排序前N位的关键词的搜索指数, 删除搜索指数低于预设值的关键词, 将剩下的关 键词作为舆情热词。 7.如权利要求1所述的方法, 其特征在于, 对所述舆情数据进行情感分类包括: 根据情 感模型确定所述舆情数据的情感分数, 进 而确定情感分类。 8.如权利要求7 所述的方法, 其特 征在于, 所述情感模型根据如下步骤训练得到: 对训练数据集进行清洗及 分词, 其中所述训练数据集包括互联网上公开的已标注情感 的评论, 以及根据检索词获取的舆情数据; 基于互联网上公开的评论数据集, 采用无监督的词向量模型训练得到词向量, 作为第 一特征; 从互联网获取情感词表, 并根据所述情感词表, 对训练数据集中的每段文字的情感词 进行编码, 得到第二特 征, 其中, 所述情感词表包括积极、 消极两个词表; 以及 融合所述第一特 征及第二特 征, 通过深度学习技 术得到情感模型。 9.如权利要求8所述的方法, 其特征在于, 对训练数据集进行清洗及分词时, 保留表情 词、 带有明确情感的新词汇以及问号、 感叹号。 10.如权利要求8所述的方法, 其特 征在于, 所述深度学习技 术包括: 使用Bi‑LSTM对融合后第一特 征及第二特 征进行特征提取; 以及 用线性层输出 得到情感分数, 其中, 所述情感分数 取值为0到1之间, 包 含1和0:权 利 要 求 书 1/2 页 2 CN 115098773 A 2若某段文字的情感分数 大于0.6, 则所述文字的情感分类判定为积极; 若某段文字的情感分数小于 0.4, 则所述文字的情感分类判定为消极; 若某段文字的情感分数介于 0.4到0.6之间, 则所述文字的情感分类判定为中性。 11.如权利要求8所述的方法, 其特 征在于, 所述情感模型的训练还 包括: 训练多个情感模型, 并将训练得到最优结果的模型作为 最终的情感模型。 12.如权利要求1所述的方法, 其特 征在于, 所述分析报告包括: 舆情热词及其对应的不同情感分类的舆情新闻和/或评论的数量和/或比例; 报告概论, 包括所述舆情数据中, 消极评论 量排名前L位的舆情新闻的标题; 以及 详细新闻列表, 包括所述舆情数据中所有评论 量不为0的舆情新闻及其情感分类。 13.如权利要求1所述的方法, 其特 征在于, 还 包括: 将所述舆情热词及量 化分析结果以可视化的方式展示出来。 14.一种基于大数据的舆情监控与分析系统, 其特征在于, 其被配置为执行如权利要求 1至13任一所述的方法, 所述系统包括: 数据抓取模块, 其被 配置为根据检索词获取舆情数据; 数据存储模块, 其被 配置为存 储舆情数据、 舆情热词以及量 化分析结果; 以及 数据处理模块, 其被配置为执行以下动作: 基于所述舆情数据提取舆情热词、 对所述舆 情数据进行情感分类及量 化分析、 以及形成分析报告。权 利 要 求 书 2/2 页 3 CN 115098773 A 3

.PDF文档 专利 一种基于大数据的舆情监控与分析系统及方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的舆情监控与分析系统及方法 第 1 页 专利 一种基于大数据的舆情监控与分析系统及方法 第 2 页 专利 一种基于大数据的舆情监控与分析系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:07:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。