网络状态全球地区

hello@oxylabs.io

中文 (CN)

中文

English

代理

住宅代理

动态住宅代理

全球1亿多真实家庭住宅代理池用来无IP封锁的抓取

ISP代理

通过可信的ASN绕过艰难目标

移动代理

利用真实移动设备 IP 地址的强大功能

数据中心代理

数据中心代理

高速、成本效益高的数据采集，成功率达99.9%.

静态数据中心代理

市场上性能更佳的代理

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案，实现无封锁抓取

立减40%

爬虫 API

网络爬虫 API

大多数网站提供的公共数据交付

功能

网络爬虫

探索网站上的所有网页并大规模获取数据

任务管家

以指定频率规划多项抓取解析作业

自定义解析器新内容

通过执行指定解析指令来解析抓取到的文件

价格

代理

数据中心代理

高性价比的解决方案

起售价

0.7美元/IP

免费IP

静态数据中心代理

性能卓越

起售价

1.2美元/IP

动态住宅代理

全球1亿多真实IP

起售价

2.5/GB

ISP代理

无限会话代理

起售价

1.2美元/IP起

移动代理

3G/4G/5G移动代理

起售价

3.5/GB

爬虫 API

网络爬虫 API

数据源自主流网站

起售价

0.25美元/千个结果

高级代理解决方案

网页解锁器

人工智能驱动的代理解决方案

立减40%

起售价

~~5美元~~3美元/GB

可免费试用

教程中心

入门

知识库

阅读有关网络爬虫、代理和更多内容的最新文章

视频教程

查看我们的视频，了解有关数据收集问题和解决方案的更多信息

解决方案

找到最适合您的商业用例的产品

快速入门指南

RP Quick start guide 动态住宅代理快速入门指南

Shared DC Quick start guide 动态数据中心代理快速入门指南

DC Quick start guide 静态数据中心代理快速入门指南

了解更多

返回博客

HOW TO's

网络爬虫 API 快速入门指南

Jolita Pundzaite

2025-01-301 min read

网络爬虫API是配备AI功能的一体化Web数据收集平台，能够满足您数据收集的各项业务需求。它解决了网络抓取各种常见问题，无论是要爬取URL，绕过反爬虫机制，还是要准确的数据解析，将数据传送到指定的云存储位置，都可以满足您的要求。让您高效、简单地从搜索引擎、电子商务网站、旅游平台和任何网站提取公共数据。

在这份指南中，您将了解如何开始使用网络爬虫API发送查询。

设置网络爬虫API

1. 注册或登陆(如果您已有账户)Oxylabs仪表板。

2. 选择免费试用版或订阅套餐后，会出现一个弹出窗口，要求创建API用户。填写用户名和密码，然后创建API用户账户。账号密码是用户在执行抓取任务时用于验证身份的信息，应存储在安全且易于访问的位置。

3. 此时会出现一个弹出窗口，其中有三个选项卡，每个选项卡中都有一个cURL测试查询。要进行测试，请的将平台提供的代码复制到您的终端、Postman或根据需要进行其他设置，输入您的API用户凭据，即可运行查询。下方是用一般性源网站爬取sandbox.oxylabs.io/products的代码：

可以使用以下不同源的查询和一些附加参数进行测试：

亚马逊

curl 'https://realtime.oxylabs.io/v1/queries' --user "USERNAME:PASSWORD" -H "Content-Type: application/json" -d '{"source": "amazon_product", "query": "B07FZ8S74R", "geo_location": "90210", "parse": true}'

谷歌

curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "google_search", "query": "adidas", "geo_location": "California,United States", "parse": true}'

一般性网站

curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "universal", "url": "https://sandbox.oxylabs.io/"}'

响应输出包括结果和抓取作业信息。请参考下方抓取亚马逊, 谷歌和一般性网站的完整输出示例。

要了解如何设置和手动测试网络爬虫API，请观看下方视频。

您还可以通过仪表板dashboard访问Scraper API Playground，从中了解如何使用网络爬虫API。

集成方法

上文视频中介绍了同步爬取数据的集成方法。使用同步抓取数据的方式，可以通过同一开放HTTPS接口发送请求和接收数据。

用户可以根据以下三种方法，任选一种集成网络爬虫API：

同步
异步
代理端点

点击此处或访问我们的技术文档，进一步了解不同集成方法以及如何选择合适的集成方法。不同集成方法的区别如下：

	异步	同步	代理端点
类型	不同时	同时	同时
抓取作业查询格式	JSON	JSON	URL
抓取作业状态查看	支持	不支持	不支持
批量查询	支持	不支持	不支持
上传到存储器	支持	不支持	不支持

使用批量查询功能，用户可以通过单个批量请求提交多达5,000条query或url参数。有关异步和代理端点集成方法的完整举例，请浏览我们的GitHub和技术文档。

专用爬虫

网络爬虫API中的专用爬虫，是专门针对特定搜索引擎、电子商务网站及其特定网页类型设计的。请查看下表，了解专用爬虫能够爬取的网站或网页：

域	源
谷歌/Google	`google` `google_search` `google_ads` `google_lens` `google_maps` `google_travel_hotels` `google_images` `google_suggest` `google_shopping_search` `google_shopping_product` `google_shopping_pricing`
必应/Bing	`bing` `bing_search`
亚马逊Amazon	`amazon` `amazon_bestsellers` `amazon_pricing` `amazon_product` `amazon_questions` `amazon_reviews` `amazon_search` `amazon_sellers`
Kroger	`kroger_product` `kroger_search` `kroger`
其他网站	`universal`

专用解析器

我们针对有些数据源，开发了提取特定数据点的专用parse器。要获取结构化数据结果，请在发送到API的请求中使用解析参数将其设置为true。更多详细信息，请查看下表：

抓取目标	源	网页类型
亚马逊Amazon	`amazon` `amazon_search` `amazon_product` `amazon_pricing` `amazon_reviews` `amazon_questions` `amazon_bestsellers` `amazon_sellers`	搜索产品优惠详情评价问答畅销榜卖家
谷歌/Google	`google` `google_search` `google_ads` `google_images` `google_lens` `google_shopping` `google_shopping_search` `google_shopping_product` `google_shopping_pricing`	网页搜索图片搜索新闻搜索反向图片搜索智能镜头搜索页面购物搜索购物产品购物优惠详情
必应/Bing	`bing` `bing_search`	搜索
沃尔玛/Walmart	`universal`	搜索产品
Best Buy	`universal`	产品
Etsy	`universal`	产品
Target	`universal`	搜索产品销售商

参数

下表列出了主要查询参数如需更多详细信息和其他参数（例如处理特定浏览上下文类型），请访问我们的技术文档。

参数	描述
`source`	设置爬虫以处理用户请求。
`url`	访问目标网站页面的直接URL/链接。
`query`	根据您想要抓取的目标，接受UTF编码的搜索关键字、亚马逊ASIN编号或Google购物产品代码。
`parse`	设置为`true`时返回解析数据。系统默值为`false`。
`geo_location`	地理位置参数会对Google的SERP结果进行本地化。在抓取亚马逊网站的数据时，会选择“送货”地点。抓取其他目标网站的的数据时，则会选择代理服务器所在地点进行抓取。
`render`	设置为`html`时，会启用JavaScript渲染。另一个可用值是`png`，设置为此值时，返回渲染页面的Base64解码屏幕截图。
`user_agent_type`	设置设备类型和浏览器。系统默认值为`desktop`。
`callback_url`	调用端点URL

响应状态码

下表中列出了使用网络爬虫API时的常见响应状态码。如果发现其他响应状态码，请联系我们的客服。

响应状态码	错误信息	描述
`200`	OK	运行良好。
`202`	Accepted	已收到您的请求。
`204`	No content	您的数据抓取作业未完成。
`400`	Multiple error messages	请求结构错误。可能是参数拼写错误或值无效。响应正文中会提供更具体的错误信息。
`401`	Authorization header not provided / Invalid authorization header / Client not found	缺少授权标头或登陆凭据不正确。
`403`	Forbidden	您的账户无权访问此资源。
`404`	Not found	您要查找的作业ID已不可用。
`422`	Unprocessable entity	有效负载有问题。请确保有效负载是有效的JSON对象。
`429`	Too many requests	超出速率限制。请联系客户经理提高限制额。
`500`	Internal server error	我们遇到了技术问题，请稍后重试。我们可能已知这个问题，但您遇到问题可以可以随时报告。
`524`	Timeout	暂停服务。
`612`	Undefined internal error	作业提交失败。如有`faulted`(故障)作业, 请免费重试，或联系我们寻求帮助。
`613`	Faulted after too many retries	作业提交失败。如有`faulted`(故障)作业, 请免费重试，或联系我们寻求帮助。

使用API各项功能

网络爬虫API有一系列智能内置功能。

网络爬虫可以帮助爬取任何网站，选择有用内容，批量交付数据。这款工具可以找到网上的任何网页并从中大规模实时获取数据。请在此处详细了解相关技术信息。
Scheduler预约功能可以帮助您自动预约重复抓取作业和解析作业。您可以通过它设置每隔一段时间重复操作，间隔时间可以设置为1分钟、5分钟、1小时、1天、2天等。使用这一功能，您无需重复发送参数完全相同的新请求。请在此处详细了解相关技术信息。
自定义解析器可以帮助从任何网站获取结构化数据。借助XPath和CSS表达式，可以解析公共数据。使用自定义解析器，可以从HTML中获取必要信息并将其转换为可读格式。
请在此处详细了解相关技术信息。
OxyCopilot是人工智能(AI)网页抓取助手，使用纯英文语言生成API搜索请求和自定义解析指令。它能识别任何网站上的复杂解析模式，无需手动编码，大大加快并简化了网络抓取和解析任务。您可以通过仪表板访问OxyCopilot。请在此处详细了解相关技术信息。
云集成功能支持将抓取的数据交付到指定云存储桶，无论是AWS、S3还是GCS，都可以做到。这样就不需要额外发送请求来获取结果，数据会直接进入云存储。请在此处详细了解相关技术信息
无头浏览器使用户能够与网页进行交互、模仿真人用户行为并高效渲染JavaScript。无需自建和维护无头浏览器解决方案，可以节省时间和资源，以处理更重要的任务。请在此处详细了解相关技术信息。

仪表板统计数据

您可以通过Oxylabs仪表板，轻松了解自己的数据流量使用情况。在统计数据部分，可以查看总的统计数据或按域分类的统计数据。筛选条件包括渲染/未渲染、域、用户、加速以及爬虫数据。此外，还可以筛选过去90天内的使用流量数据。

常见问题解答

网络爬虫API速率限制是什么意思？

根据用户账户每月的数据订阅套餐，用户账户会有相应的速率限制。根据预计抓取作业的量，速率限制应该是您足够使用的流量。

如何使用网络爬虫API下载图像？

使用代理端点集成方法时，可将输出保存为图像扩展名来下载图像；使用异步或同步集成方法时，则通过content_encoding 参数来下载图像。

是否可以免费试用网络爬虫API？

当然可以，免费使用一周，可以获取5,000个数据结果。

网络爬虫API提供怎样的订阅套餐方案？

您可以根据自己的需求选择套餐，可以选择小型业务级套餐，也可以选择大型企业级套餐，套餐低至49美元/月。

网络爬虫API收费标准是怎样的？

网络爬虫API按照成功抓取结果计费。我方技术原因导致失败的抓取不收费。

关于作者

Jolita Pundzaite

产品营销经理

Jolita Pundzaite 在 Oxylabs 担任一名产品营销经理。拥有近 10 年的营销和技术经验，Jolita 喜欢称自己为“万事通”，不断寻找通过技术改善人们生活的各种方法。她喜欢阅读，远行，在厨房里做实验，或者骑着滑雪板从山上滑下来。当她不工作时，您很可能会发现 Jolita 进行一些 HIIT 锻炼，或者干脆在冰洞里发呆来测试她的极限。

Oxylabs博客上的所有信息均按“原样”提供，仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息，我们不作任何陈述，亦不承担任何责任。在从事任何类型的抓取活动之前，请咨询您的法律顾问，并仔细阅读特定网站的服务条款或取得抓取许可。

选择Oxylabs®，业务更上一层楼

联系我们

一般信息:
hello@oxylabs.io
客服团队:
support@oxylabs.io
销售团队:
sales@oxylabs.io

经过认证的数据中心和上游提供商

关注我们

微信公众号
微信号
Oxylabs

公司

代理

高级代理解决方案

网页解锁器

爬虫 API

网络爬虫 API

资源

隐私政策

网络爬虫 API 快速入门指南

设置网络爬虫API

亚马逊

谷歌

一般性网站

集成方法

专用爬虫

专用解析器

参数

响应状态码

使用API各项功能

仪表板统计数据

更多资源

常见问题解答

网络爬虫API速率限制是什么意思？

如何使用网络爬虫API下载图像？

是否可以免费试用网络爬虫API？

网络爬虫API提供怎样的订阅套餐方案？

网络爬虫API收费标准是怎样的？