作为Oxylabs的爬虫API(即网络爬虫API和电商爬虫API)的附加组件,网络爬虫可以利用我们的免维护基础架构帮助您快速高效地探索和收集数据。
什么是网页爬取?
网页爬取是指发现目标URL(链接)的自动化过程。通常,网络爬取先于网络抓取,识别目标链接(为目标链接建立索引)以进行后续数据提取。
首先,务必了解网络爬取与网络抓取的区别。
什么是Oxylabs网络爬虫?
网络爬虫 是Oxylabs网络爬虫API的一项功能,它可以帮助爬取任何网站,选择有用内容,并批量交付数据。这款工具可以发现网站上的所有网页并从中大规模实时获取数据。
网络爬虫可以帮助您利用我们的爬虫API的抓取和解析数据功能,通过JavaScript渲染等高级功能顺利爬取网站。
流程主要包括三个阶段:
1.用户输入。首先,制定爬取模式来定义所需数据:
选择起始网页链接(URL)。
定义网络爬虫要访问的系列链接。
定义包含有用信息的链接。
指定数据收集偏好,例如地理位置。
2.发现数据。接收到您的输入信息后,网络爬虫按照网页之间的链接遍历网站,直到再也找不到与您指定的模式匹配的新链接。
3.爬取结果。网络爬虫结束任务后,您便可以通过API下载指定格式的可用数据结果,或者将它们上传到您选择的云存储空间。
网络爬虫动作链
接下来我们快速了解如何使用网络爬虫。您可以在我们的产品文档中找到各种端点、参数和值的详细设置说明。
您可以在API客户端(例如Postman)上,通过端点与API进行通信。用户可以通过网络爬虫的端点来控制流程 :
启动、停止或恢复作业。
了解作业信息。
获取爬取过程中发现的URL列表。
获取数据结果。
您可以提供一组参数来确定爬取范围。选择起始URL(目标网站)并通过筛选器来确定爬取流程的范围。通过筛选器还可以确定最终结果中应包含哪些URL。
除定义网络爬虫如何处理遍历网站时发现的URL外,您还可以添加抓取参数来微调抓取作业方式。抓取参数因使用的不同爬虫API而有所不同。
注意:例如,如果要爬取亚马逊网站,可以输入亚马逊爬虫特定参数。确保查看对应的爬虫技术文档,进一步了解详细信息。
您可能希望在爬取站点时执行Javascript渲染,或者希望定位到特定地理位置,都可以通过输入参数来设定。
在设置结束前,设定最终输出参数以确定数据结果的格式(请参见爬取结果部分)。
网络爬虫将作业结果聚合为一个或多个最终输出的结果文件,随时可用。包括三种类型的输出结果:
URL列表(站点地图)
包含聚合的解析结果数据JSON文件。
包含聚合的HTML结果数据 JSON 文件。
注意:如果您选择第一种结果,可以下载列表上的所有URL。这些URL与抓取作业ID相关联,可用于获取抓取结果。请查看这里了解更多详细信息。
完成爬取后,用户可以通过Oxylabs下载结果,也可以将它们上传到云存储。 指定确切位置,网络爬虫会将文件上传,例如到AWS S3。
网络爬虫易于设置,定制程度高,它通过抓取网页时发现的链接遍历网站来发现URL。欢迎使用为期一周的网络爬虫 API和电商爬虫 API免费试用来测试网络爬虫的功能。
在使用网络爬虫时,需要了解如何设置和自定义爬取任务,请随时通过我们主页上的24/7实时聊天联系我们的客服,或者给我们发送电子邮件。
我们建议您在从事任何类型的抓取活动之前寻求法律咨询,以评估具体情况,并就进一步的流程咨询专业人士的意见。
关于作者
Augustas Pelakauskas
文案
Augustas Pelakauskas 在 Oxylabs 担任一名文案策划人。拥有艺术家庭背景,他全身心地投入到各种创意项目中 - 最近的他都在写作。验证了他在自由新闻领域的能力后,他转到了科技内容创作。闲暇时,他喜欢阳光明媚的户外活动和运动康乐。事实证明,自行车则是他的第三个好朋友。
Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。
选择Oxylabs®,业务更上一层楼
联系我们
一般信息:
hello@oxylabs.io客服团队:
support@oxylabs.io销售团队:
sales@oxylabs.io经过认证的数据中心和上游提供商
关注我们
高级代理解决方案
oxylabs.cn© 2024 保留所有权利©