说明:收录90万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210846381.X (22)申请日 2022.07.04 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 王玉振 章志军 尚传帅 (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 专利代理师 徐升升 阎敏 (51)Int.Cl. G06F 16/951(2019.01) G06F 9/445(2018.01) (54)发明名称 网页抓取方法、 装置、 设备以及存 储介质 (57)摘要 本公开提供了一种网页抓取方法、 装置、 设 备以及存储介质。 涉及人工智 能领域, 具体涉及 云计算和企业应用技术, 可应用于智能云场景 下。 具体实现方案为: 按照优先级顺序获取目标 配置信息; 基于目标配置信息确定控制参数和待 抓取的目标网页; 基于控制参数, 执行针对目标 网页的抓取操作, 得到目标网页的抓取结果。 根 据本公开的技 术方案, 能提高网页抓取的效率。 权利要求书2页 说明书16页 附图5页 CN 115329170 A 2022.11.11 CN 115329170 A 1.一种网页抓取 方法, 包括: 按照优先级顺序获取目标配置信息; 基于所述目标配置信息确定控制参数和待抓取的目标网页; 基于所述控制参数, 执行针对所述目标网页的抓取操作, 得到所述目标网页的抓取结 果。 2.根据权利要求1所述的方法, 还 包括: 基于所述目标配置信息确定目标存 储路径; 将记录的网页抓取过程中的信 息生成日志文件, 并将所述日志文件存储至所述目标存 储路径下。 3.根据权利要求1或2所述的方法, 还 包括: 确定所述 抓取结果的数据类型; 按照所述数据类型存 储所述抓取结果。 4.根据权利要求3所述的方法, 其中, 所述抓取结果包括网页内容, 所述按照所述数据 类型存储所述抓取结果, 包括: 将所述数据类型为结构化数据的网页内容, 存 储至本地的第一数据库中; 将所述数据类型为非结构化数据的网页内容, 存 储至本地的第二数据库中。 5.根据权利要求 4所述的方法, 还 包括: 解析出所述网页内容对应的编码类型; 在所述编码类型为非预设编码类型的情况下, 将所述网页内容转换成编码类型为所述 预设编码类型的网页内容。 6.根据权利要求3所述的方法, 其中, 所述 抓取结果包括网页源文件, 所述方法还 包括: 将所述网页源文件 存储至本地的指定的存 储目录下。 7.根据权利要求1或2所述的方法, 其中, 所述按照优先级顺序获取目标配置信息, 包 括: 响应于检测到命令行参数, 将所述命令行参数中的第一配置信息作为目标配置信息; 响应于未检测到所述命令行参数但检测到系统环境变量, 将所述系统环境变量中的第 二配置信息作为目标配置信息; 响应于只检测到配置文件, 将所述配置文件中的第三配置信息作为目标配置信息 。 8.根据权利要求7所述的方法, 其中, 所述目标配置信息包括预设参数的配置信息, 所 述按照优先级顺序获取目标配置信息, 还 包括: 响应于检测到所述命令行参数、 所述系统环境变量和所述配置文件中均不包括所述预 设参数, 读取 所述预设参数的默认值; 将所述预设参数的默认值作为所述预设参数的目标配置信息 。 9.根据权利要求7 所述的方法, 还 包括: 利用预设编程语言编译的第一类数据包读取 所述命令行参数; 利用预设编程语言编译的第二类数据包读取 所述系统环境变量; 利用预设编 程语言编译的第 三类数据包读取所述配置文件, 并监 听所述配置文件的变 化。 10.根据权利要求9所述的方法, 还 包括:权 利 要 求 书 1/2 页 2 CN 115329170 A 2在网页抓取 过程中, 响应于检测到所述配置文件发生变化, 更新所述目标配置信息 。 11.根据权利要求1或2所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标 网页的抓取操作, 包括: 在网页抓取过程中, 利用预设编 程语言编译的第四类数据包伪装成所述目标网页的请 求头部信息, 对所述目标网页进行访问, 并执 行针对所述目标网页的抓取操作。 12.根据权利要求1或2所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标 网页的抓取操作, 包括: 从所述目标配置信息中获取 所述目标网页的抓取链接; 将所述目标网页的抓取链接推送到任务队列中; 通过通信通道控制执行所述任务队列中的每一个抓取任务, 并在超出最大上限值 时进 行阻塞, 所述 最大上限值是 所述通信通道许 可的并发任务数。 13.根据权利要求12所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标网 页的抓取操作, 还 包括: 在解析出所述目标网页包含子链接的情况下, 若所述子链接表示的抓取深度小于等于 最大抓取深度, 则将所述子链接推送至任务队列中。 14.根据权利要求12所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标网 页的抓取操作, 还 包括: 在执行所述任务队列中的任一目标任务前, 若查询到预设表中存在所述目标任务的统 一资源定位符, 则丢弃 所述目标任务; 若查询到所述预设表中不存在所述目标任务的统一资源定位符, 则执行所述目标任 务, 并在执 行完所述目标任务后, 将所述目标任务的统一资源定位符记录 至所述预设表中。 15.根据权利要求14所述的方法, 其中, 所述在执行完所述目标任务后, 将所述目标任 务的统一资源定位符记录 至所述预设表中, 包括: 响应于预设时间段内未成功抓取到所述目标网页, 终止对所述目标网页的抓取操作, 将所述目标任务的统一资源定位符记录 至所述预设表中。 16.一种网页抓取装置, 包括: 获取单元, 用于按照优先级顺序获取目标配置信息; 第一确定单 元, 用于基于所述目标配置信息确定控制参数和待抓取的目标网页; 抓取单元, 用于基于所述控制参数, 执行针对所述目标网页的抓取操作, 得到所述目标 网页的抓取 结果。 17.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑15中任一项所述的方法。 18.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑15中任一项所述的方法。 19.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑15中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115329170 A 3
专利 网页抓取方法、装置、设备以及存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 16:37:36
上传分享
举报
下载
原文档
(776.5 KB)
分享
友情链接
DB43-T 2106-2021 麦穗鱼池塘健康养殖技术规程 湖南省.pdf
GB/T 40143-2021 志愿服务组织基本规范.pdf
T-CHES 54—2021 取水权交易可行性报告编制导则.pdf
T-CSAE 262—2022 电动汽车电池管理系统用故障注入测试规范.pdf
T-CEC 673.1—2022 全氟异丁腈气体纯度检测方法 第1部分:气相色谱法.pdf
NB-T 33004—2020 电动汽车充换电设施工程施工和竣工验收规范.pdf
GB-T 42815-2023 债券价格指标产品描述规范.pdf
GB-T 26067-2010 硅片切口尺寸测试方法.pdf
信通院 数据治理研究报告-2020年——培育数据要素市场路线图.pdf
GB-T 36399-2018 连续热镀铝硅合金镀层钢板及钢带.pdf
GB-T 34079.4-2021 基于云计算的电子政务公共平台服务规范 第4部分:应用服务.pdf
T-CPQS XF005—2023 消防应急照明和疏散指示产品维修、更换及相关服务.pdf
专利 一种使用DPDK和密码卡实现高性能链路加密的方法.PDF
GB-T 28452-2012 信息安全技术 应用软件系统通用安全技术要求.pdf
GB-T 30269.601-2016 信息技术 传感器网络 第601部分:信息安全:通用技术规范.pdf
SY-T 7678-2023 二氧化碳驱油田站内工艺管道施工技术规范.pdf
信通院 零信任技术.pdf
JR-T 0242—2022 电子保单商用密码应用规范.pdf
GB-T 9465-2018 高空作业车.pdf
GB-T 20004.2-2018 团体标准化 第2部分:良好行为评价指南.pdf
1
/
3
24
评价文档
赞助2.5元 点击下载(776.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。