返回博客

网络爬虫 API 快速入门指南

网络爬虫 API 快速入门指南

Jolita Pundzaite

2025-01-301 min read

网络爬虫API是配备AI功能的一体化Web数据收集平台,能够满足您数据收集的各项业务需求。它解决了网络抓取各种常见问题,无论是要爬取URL,绕过反爬虫机制,还是要准确的数据解析,将数据传送到指定的云存储位置,都可以满足您的要求。让您高效、简单地从搜索引擎电子商务网站旅游平台任何网站提取公共数据。

在这份指南中,您将了解如何开始使用网络爬虫API发送查询。

设置网络爬虫API

1. 注册或登陆(如果您已有账户)Oxylabs仪表板

2. 选择免费试用版或订阅套餐后,会出现一个弹出窗口,要求创建API用户。填写用户名和密码,然后创建API用户账户。账号密码是用户在执行抓取任务时用于验证身份的信息,应存储在安全且易于访问的位置。

3. 此时会出现一个弹出窗口,其中有三个选项卡,每个选项卡中都有一个cURL测试查询。要进行测试,请的将平台提供的代码复制到您的终端Postman或根据需要进行其他设置,输入您的API用户凭据,即可运行查询。下方是用一般性源网站爬取sandbox.oxylabs.io/products的代码:

可以使用以下不同源的查询和一些附加参数进行测试:

亚马逊

curl 'https://realtime.oxylabs.io/v1/queries' --user "USERNAME:PASSWORD" -H "Content-Type: application/json" -d '{"source": "amazon_product", "query": "B07FZ8S74R", "geo_location": "90210", "parse": true}'

谷歌

curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "google_search", "query": "adidas", "geo_location": "California,United States", "parse": true}'

一般性网站

curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "universal", "url": "https://sandbox.oxylabs.io/"}'

响应输出包括结果和抓取作业信息。请参考下方抓取亚马逊, 谷歌一般性网站的完整输出示例。

要了解如何设置和手动测试网络爬虫API,请观看下方视频。

您还可以通过仪表板dashboard访问Scraper API Playground,从中了解如何使用网络爬虫API。

集成方法

上文视频中介绍了同步爬取数据的集成方法。使用同步抓取数据的方式,可以通过同一开放HTTPS接口发送请求和接收数据。

用户可以根据以下三种方法,任选一种集成网络爬虫API:

  1. 同步

  2. 异步

  3. 代理端点

点击此处或访问我们的技术文档,进一步了解不同集成方法以及如何选择合适的集成方法。不同集成方法的区别如下:

异步 同步 代理端点
类型 不同时 同时 同时
抓取作业查询格式 JSON JSON URL
抓取作业状态查看 支持 不支持 不支持
批量查询 支持 不支持 不支持
上传到存储器 支持 不支持 不支持

使用批量查询功能,用户可以通过单个批量请求提交多达5,000条queryurl参数。有关异步代理端点集成方法的完整举例,请浏览我们的GitHub技术文档

专用爬虫

网络爬虫API中的专用爬虫,是专门针对特定搜索引擎电子商务网站及其特定网页类型设计的。请查看下表,了解专用爬虫能够爬取的网站或网页:

谷歌/Google google
google_search
google_ads
google_lens
google_maps
google_travel_hotels
google_images
google_suggest
google_shopping_search
google_shopping_product
google_shopping_pricing
必应/Bing bing
bing_search
亚马逊Amazon amazon
amazon_bestsellers
amazon_pricing
amazon_product
amazon_questions
amazon_reviews
amazon_search
amazon_sellers
Kroger kroger_product
kroger_search
kroger
YouTube Transcript youtube_transcript
其他网站 universal

专用解析器

我们针对有些数据源,开发了提取特定数据点的专用parse器。要获取结构化数据结果,请在发送到API的请求中使用解析参数将其设置为true。更多详细信息,请查看下表:

抓取目标 网页类型
亚马逊Amazon amazon
amazon_search
amazon_product
amazon_pricing
amazon_reviews
amazon_questions
amazon_bestsellers
amazon_sellers
搜索
产品
优惠详情
评价
问答
畅销榜
卖家
谷歌/Google google
google_search
google_ads
google_images
google_lens
google_shopping
google_shopping_search
google_shopping_product
google_shopping_pricing
网页搜索
图片搜索
新闻搜索
反向图片搜索
智能镜头搜索页面
购物搜索
购物产品
购物优惠详情
必应/Bing bing
bing_search
搜索
沃尔玛/Walmart universal 搜索
产品
Best Buy universal 产品
Etsy universal 产品
Target universal 搜索
产品
销售商

参数

下表列出了主要查询参数如需更多详细信息和其他参数(例如处理特定浏览上下文类型),请访问我们的技术文档

参数 描述
source 设置爬虫以处理用户请求。
url 访问目标网站页面的直接URL/链接。
query 根据您想要抓取的目标,接受UTF编码的搜索关键字、亚马逊ASIN编号或Google购物产品代码。
parse 设置为true时返回解析数据。
系统默值为false
geo_location 地理位置参数会对Google的SERP结果进行本地化。在抓取亚马逊网站的数据时,会选择“送货”地点。抓取其他目标网站的的数据时,则会选择代理服务器所在地点进行抓取。
render 设置为html时,会启用JavaScript渲染。另一个可用值是png,设置为此值时,返回渲染页面的Base64解码屏幕截图。
user_agent_type 设置设备类型和浏览器。
系统默认值为desktop
callback_url 调用端点URL

响应状态码

下表中列出了使用网络爬虫API时的常见响应状态码。如果发现其他响应状态码,请联系我们的客服。

响应状态码 错误信息 描述
200 OK 运行良好。
202 Accepted 已收到您的请求。
204 No content 您的数据抓取作业未完成。
400 Multiple error messages 请求结构错误。可能是参数拼写错误或值无效。响应正文中会提供更具体的错误信息。
401 Authorization header not provided / Invalid authorization header / Client not found 缺少授权标头或登陆凭据不正确。
403 Forbidden 您的账户无权访问此资源。
404 Not found 您要查找的作业ID已不可用。
422 Unprocessable entity 有效负载有问题。请确保有效负载是有效的JSON对象。
429 Too many requests 超出速率限制。请联系客户经理提高限制额。
500 Internal server error 我们遇到了技术问题,请稍后重试。我们可能已知这个问题,但您遇到问题可以可以随时报告。
524 Timeout 暂停服务。
612 Undefined internal error 作业提交失败。如有faulted(故障)作业, 请免费重试,或联系我们寻求帮助。
613 Faulted after too many retries 作业提交失败。如有faulted(故障)作业, 请免费重试,或联系我们寻求帮助。

使用API各项功能

网络爬虫API有一系列智能内置功能

  1. 网络爬虫可以帮助爬取任何网站,选择有用内容,批量交付数据。这款工具可以找到网上的任何网页并从中大规模实时获取数据。请在此处详细了解相关技术信息

  2. Scheduler预约功能可以帮助您自动预约重复抓取作业和解析作业。您可以通过它设置每隔一段时间重复操作,间隔时间可以设置为1分钟、5分钟、1小时、1天、2天等。使用这一功能,您无需重复发送参数完全相同的新请求。请在此处详细了解相关技术信息

  3. 自定义解析器可以帮助从任何网站获取结构化数据。借助XPath和CSS表达式,可以解析公共数据。使用自定义解析器,可以从HTML中获取必要信息并将其转换为可读格式。
    请在此处详细了解相关技术信息

  4. OxyCopilot是人工智能(AI)网页抓取助手,使用纯英文语言生成API搜索请求和自定义解析指令。它能识别任何网站上的复杂解析模式,无需手动编码,大大加快并简化了网络抓取和解析任务。您可以通过仪表板访问OxyCopilot。请在此处详细了解相关技术信息

  5. 云集成功能支持将抓取的数据交付到指定云存储桶,无论是AWS、S3还是GCS,都可以做到。这样就不需要额外发送请求来获取结果,数据会直接进入云存储。请在此处详细了解相关技术信息

  6. 无头浏览器使用户能够与网页进行交互、模仿真人用户行为并高效渲染JavaScript。无需自建和维护无头浏览器解决方案,可以节省时间和资源,以处理更重要的任务。请在此处详细了解相关技术信息

仪表板统计数据

您可以通过Oxylabs仪表板,轻松了解自己的数据流量使用情况。在统计数据部分,可以查看总的统计数据或按域分类的统计数据。筛选条件包括渲染/未渲染、域、用户、加速以及爬虫数据。此外,还可以筛选过去90天内的使用流量数据。

更多资源

用户可以免费试用网络爬虫API一周,抓取5,000个数据结果。如有任何问题,欢迎通过在线聊天或发送电子邮件至support@oxylabs.io联系我们的客服。

有关网络数据提取的更多教程和提示,敬请继续关注我们的:

常见问题解答

网络爬虫API速率限制是什么意思?

根据用户账户每月的数据订阅套餐,用户账户会有相应的速率限制。根据预计抓取作业的量,速率限制应该是您足够使用的流量。

如何使用网络爬虫API下载图像?

使用代理端点集成方法时,可将输出保存为图像扩展名来下载图像;使用异步或同步集成方法时,则通过content_encoding 参数来下载图像。

是否可以免费试用网络爬虫API?

当然可以,免费使用一周,可以获取5,000个数据结果。

网络爬虫API提供怎样的订阅套餐方案?

您可以根据自己的需求选择套餐,可以选择小型业务级套餐,也可以选择大型企业级套餐,套餐低至49美元/月。

网络爬虫API收费标准是怎样的?

网络爬虫API按照成功抓取结果计费。我方技术原因导致失败的抓取不收费。

关于作者

Jolita Pundzaite

产品营销经理

Jolita Pundzaite 在 Oxylabs 担任一名产品营销经理。拥有近 10 年的营销和技术经验,Jolita 喜欢称自己为“万事通”,不断寻找通过技术改善人们生活的各种方法。她喜欢阅读,远行,在厨房里做实验,或者骑着滑雪板从山上滑下来。当她不工作时,您很可能会发现 Jolita 进行一些 HIIT 锻炼,或者干脆在冰洞里发呆来测试她的极限。

Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。

在这篇文章


  • 设置网络爬虫API

  • 集成方法

  • 专用爬虫

  • 专用解析器

  • 参数

  • 响应状态码

  • 使用API各项功能

  • 仪表板统计数据

  • 更多资源

选择Oxylabs®,业务更上一层楼


联系我们

经过认证的数据中心和上游提供商

关注我们

  • we chat qr code

    微信公众号

    微信号

    Oxylabs

高级代理解决方案


隐私政策

oxylabs.cn© 2025 保留所有权利©