网络状态全球地区

hello@oxylabs.io

中文 (CN)

中文

English

代理

住宅代理

动态住宅代理

全球1亿多真实家庭住宅代理池用来无IP封锁的抓取

ISP代理

通过可信的ASN绕过艰难目标

移动代理

利用真实移动设备 IP 地址的强大功能

数据中心代理

数据中心代理

高速、成本效益高的数据采集，成功率达99.9%.

静态数据中心代理

市场上性能更佳的代理

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案，实现无封锁抓取

立减40%

爬虫 API

网络爬虫 API

大多数网站提供的公共数据交付

功能

网络爬虫

探索网站上的所有网页并大规模获取数据

任务管家

以指定频率规划多项抓取解析作业

自定义解析器新内容

通过执行指定解析指令来解析抓取到的文件

价格

代理

数据中心代理

高性价比的解决方案

起售价

0.7美元/IP

免费IP

静态数据中心代理

性能卓越

起售价

1.2美元/IP

动态住宅代理

全球1亿多真实IP

起售价

2.5/GB

ISP代理

无限会话代理

起售价

1.2美元/IP起

移动代理

3G/4G/5G移动代理

起售价

3.5/GB

爬虫 API

网络爬虫 API

数据源自主流网站

起售价

0.25美元/千个结果

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案

立减40%

起售价

~~5美元~~3美元/GB

可免费试用

教程中心

入门

知识库

阅读有关网络爬虫、代理和更多内容的最新文章

视频教程

查看我们的视频，了解有关数据收集问题和解决方案的更多信息

解决方案

找到最适合您的商业用例的产品

快速入门指南

RP Quick start guide 动态住宅代理快速入门指南

Shared DC Quick start guide 动态数据中心代理快速入门指南

DC Quick start guide 静态数据中心代理快速入门指南

了解更多

返回博客

网络爬虫：从哪里入门&如何操作

Augustas Pelakauskas

2023-05-081 min read

作为Oxylabs的爬虫API（即网络爬虫API和电商爬虫API）的附加组件，网络爬虫可以利用我们的免维护基础架构帮助您快速高效地探索和收集数据。

什么是网页爬取？

网页爬取是指发现目标URL（链接）的自动化过程。通常，网络爬取先于网络抓取，识别目标链接（为目标链接建立索引）以进行后续数据提取。

首先，务必了解网络爬取与网络抓取的区别。

什么是Oxylabs网络爬虫？

网络爬虫是Oxylabs网络爬虫API的一项功能，它可以帮助爬取任何网站，选择有用内容，并批量交付数据。这款工具可以发现网站上的所有网页并从中大规模实时获取数据。

网络爬虫的操作

网络爬虫可以帮助您利用我们的爬虫API的抓取和解析数据功能，通过JavaScript渲染等高级功能顺利爬取网站。

流程主要包括三个阶段：

1.用户输入。首先，制定爬取模式来定义所需数据：

选择起始网页链接（URL）。
定义网络爬虫要访问的系列链接。
定义包含有用信息的链接。
指定数据收集偏好，例如地理位置。

2.发现数据。接收到您的输入信息后，网络爬虫按照网页之间的链接遍历网站，直到再也找不到与您指定的模式匹配的新链接。

3.爬取结果。网络爬虫结束任务后，您便可以通过API下载指定格式的可用数据结果，或者将它们上传到您选择的云存储空间。

网络爬虫动作链

任务设置

接下来我们快速了解如何使用网络爬虫。您可以在我们的产品文档中找到各种端点、参数和值的详细设置说明。

端点

您可以在API客户端（例如Postman）上，通过端点与API进行通信。用户可以通过网络爬虫的端点来控制流程：

启动、停止或恢复作业。
了解作业信息。
获取爬取过程中发现的URL列表。
获取数据结果。

爬取参数

您可以提供一组参数来确定爬取范围。选择起始URL（目标网站）并通过筛选器来确定爬取流程的范围。通过筛选器还可以确定最终结果中应包含哪些URL。

抓取参数

除定义网络爬虫如何处理遍历网站时发现的URL外，您还可以添加抓取参数来微调抓取作业方式。抓取参数因使用的不同爬虫API而有所不同。

注意：例如，如果要爬取亚马逊网站，可以输入亚马逊爬虫特定参数。确保查看对应的爬虫技术文档，进一步了解详细信息。

您可能希望在爬取站点时执行Javascript渲染，或者希望定位到特定地理位置，都可以通过输入参数来设定。

在设置结束前，设定最终输出参数以确定数据结果的格式（请参见爬取结果部分）。

爬取结果

网络爬虫将作业结果聚合为一个或多个最终输出的结果文件，随时可用。包括三种类型的输出结果：

URL列表（站点地图）
包含聚合的解析结果数据JSON文件。
包含聚合的HTML结果数据 JSON 文件。

注意：如果您选择第一种结果，可以下载列表上的所有URL。这些URL与抓取作业ID相关联，可用于获取抓取结果。请查看这里了解更多详细信息。

上传到云端（可选）

完成爬取后，用户可以通过Oxylabs下载结果,也可以将它们上传到云存储。指定确切位置，网络爬虫会将文件上传，例如到AWS S3。

总结

网络爬虫易于设置，定制程度高，它通过抓取网页时发现的链接遍历网站来发现URL。欢迎使用为期一周的网络爬虫 API和电商爬虫 API免费试用来测试网络爬虫的功能。

在使用网络爬虫时，需要了解如何设置和自定义爬取任务，请随时通过我们主页上的24/7实时聊天联系我们的客服，或者给我们发送电子邮件。

我们建议您在从事任何类型的抓取活动之前寻求法律咨询，以评估具体情况，并就进一步的流程咨询专业人士的意见。

关于作者

Augustas Pelakauskas

文案

Augustas Pelakauskas 在 Oxylabs 担任一名文案策划人。拥有艺术家庭背景，他全身心地投入到各种创意项目中 - 最近的他都在写作。验证了他在自由新闻领域的能力后，他转到了科技内容创作。闲暇时，他喜欢阳光明媚的户外活动和运动康乐。事实证明，自行车则是他的第三个好朋友。

Oxylabs博客上的所有信息均按“原样”提供，仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息，我们不作任何陈述，亦不承担任何责任。在从事任何类型的抓取活动之前，请咨询您的法律顾问，并仔细阅读特定网站的服务条款或取得抓取许可。

选择Oxylabs®，业务更上一层楼

联系我们

一般信息:
hello@oxylabs.io
客服团队:
support@oxylabs.io
销售团队:
sales@oxylabs.io

经过认证的数据中心和上游提供商

关注我们

微信公众号
微信号
Oxylabs

公司

代理

高级代理解决方案

网页解锁器

爬虫 API

网络爬虫 API

资源

隐私政策