说明:收录90万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210846381.X (22)申请日 2022.07.04 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 王玉振 章志军 尚传帅  (74)专利代理 机构 北京易光知识产权代理有限 公司 11596 专利代理师 徐升升 阎敏 (51)Int.Cl. G06F 16/951(2019.01) G06F 9/445(2018.01) (54)发明名称 网页抓取方法、 装置、 设备以及存 储介质 (57)摘要 本公开提供了一种网页抓取方法、 装置、 设 备以及存储介质。 涉及人工智 能领域, 具体涉及 云计算和企业应用技术, 可应用于智能云场景 下。 具体实现方案为: 按照优先级顺序获取目标 配置信息; 基于目标配置信息确定控制参数和待 抓取的目标网页; 基于控制参数, 执行针对目标 网页的抓取操作, 得到目标网页的抓取结果。 根 据本公开的技 术方案, 能提高网页抓取的效率。 权利要求书2页 说明书16页 附图5页 CN 115329170 A 2022.11.11 CN 115329170 A 1.一种网页抓取 方法, 包括: 按照优先级顺序获取目标配置信息; 基于所述目标配置信息确定控制参数和待抓取的目标网页; 基于所述控制参数, 执行针对所述目标网页的抓取操作, 得到所述目标网页的抓取结 果。 2.根据权利要求1所述的方法, 还 包括: 基于所述目标配置信息确定目标存 储路径; 将记录的网页抓取过程中的信 息生成日志文件, 并将所述日志文件存储至所述目标存 储路径下。 3.根据权利要求1或2所述的方法, 还 包括: 确定所述 抓取结果的数据类型; 按照所述数据类型存 储所述抓取结果。 4.根据权利要求3所述的方法, 其中, 所述抓取结果包括网页内容, 所述按照所述数据 类型存储所述抓取结果, 包括: 将所述数据类型为结构化数据的网页内容, 存 储至本地的第一数据库中; 将所述数据类型为非结构化数据的网页内容, 存 储至本地的第二数据库中。 5.根据权利要求 4所述的方法, 还 包括: 解析出所述网页内容对应的编码类型; 在所述编码类型为非预设编码类型的情况下, 将所述网页内容转换成编码类型为所述 预设编码类型的网页内容。 6.根据权利要求3所述的方法, 其中, 所述 抓取结果包括网页源文件, 所述方法还 包括: 将所述网页源文件 存储至本地的指定的存 储目录下。 7.根据权利要求1或2所述的方法, 其中, 所述按照优先级顺序获取目标配置信息, 包 括: 响应于检测到命令行参数, 将所述命令行参数中的第一配置信息作为目标配置信息; 响应于未检测到所述命令行参数但检测到系统环境变量, 将所述系统环境变量中的第 二配置信息作为目标配置信息; 响应于只检测到配置文件, 将所述配置文件中的第三配置信息作为目标配置信息 。 8.根据权利要求7所述的方法, 其中, 所述目标配置信息包括预设参数的配置信息, 所 述按照优先级顺序获取目标配置信息, 还 包括: 响应于检测到所述命令行参数、 所述系统环境变量和所述配置文件中均不包括所述预 设参数, 读取 所述预设参数的默认值; 将所述预设参数的默认值作为所述预设参数的目标配置信息 。 9.根据权利要求7 所述的方法, 还 包括: 利用预设编程语言编译的第一类数据包读取 所述命令行参数; 利用预设编程语言编译的第二类数据包读取 所述系统环境变量; 利用预设编 程语言编译的第 三类数据包读取所述配置文件, 并监 听所述配置文件的变 化。 10.根据权利要求9所述的方法, 还 包括:权 利 要 求 书 1/2 页 2 CN 115329170 A 2在网页抓取 过程中, 响应于检测到所述配置文件发生变化, 更新所述目标配置信息 。 11.根据权利要求1或2所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标 网页的抓取操作, 包括: 在网页抓取过程中, 利用预设编 程语言编译的第四类数据包伪装成所述目标网页的请 求头部信息, 对所述目标网页进行访问, 并执 行针对所述目标网页的抓取操作。 12.根据权利要求1或2所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标 网页的抓取操作, 包括: 从所述目标配置信息中获取 所述目标网页的抓取链接; 将所述目标网页的抓取链接推送到任务队列中; 通过通信通道控制执行所述任务队列中的每一个抓取任务, 并在超出最大上限值 时进 行阻塞, 所述 最大上限值是 所述通信通道许 可的并发任务数。 13.根据权利要求12所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标网 页的抓取操作, 还 包括: 在解析出所述目标网页包含子链接的情况下, 若所述子链接表示的抓取深度小于等于 最大抓取深度, 则将所述子链接推送至任务队列中。 14.根据权利要求12所述的方法, 其中, 所述基于所述控制参数, 执行针对所述目标网 页的抓取操作, 还 包括: 在执行所述任务队列中的任一目标任务前, 若查询到预设表中存在所述目标任务的统 一资源定位符, 则丢弃 所述目标任务; 若查询到所述预设表中不存在所述目标任务的统一资源定位符, 则执行所述目标任 务, 并在执 行完所述目标任务后, 将所述目标任务的统一资源定位符记录 至所述预设表中。 15.根据权利要求14所述的方法, 其中, 所述在执行完所述目标任务后, 将所述目标任 务的统一资源定位符记录 至所述预设表中, 包括: 响应于预设时间段内未成功抓取到所述目标网页, 终止对所述目标网页的抓取操作, 将所述目标任务的统一资源定位符记录 至所述预设表中。 16.一种网页抓取装置, 包括: 获取单元, 用于按照优先级顺序获取目标配置信息; 第一确定单 元, 用于基于所述目标配置信息确定控制参数和待抓取的目标网页; 抓取单元, 用于基于所述控制参数, 执行针对所述目标网页的抓取操作, 得到所述目标 网页的抓取 结果。 17.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑15中任一项所述的方法。 18.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑15中任一项所述的方法。 19.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1 ‑15中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115329170 A 3

.PDF文档 专利 网页抓取方法、装置、设备以及存储介质

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网页抓取方法、装置、设备以及存储介质 第 1 页 专利 网页抓取方法、装置、设备以及存储介质 第 2 页 专利 网页抓取方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:37:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。