Acquire

返回博客

电商爬虫API快速入门指南

Iveta Vistorskyte

2021-12-20

Oxylabs 的电子商务爬虫 API是一个公共数据爬虫 API,旨在通过大多数电子商务网站收集大量实时本地化数据并搜索信息。这个数据收集工具作为一个值得信赖的解决方案,实现通过最复杂的电子商务网站收集公共信息。电子商务爬虫API 适用于商业用例,诸如价格监控、产品目录映射、竞争对手分析。

这份快速入门指南解释了电子商务爬虫API的运作方式。我们还将介绍如何无忧地开始使用这个数据收集工具。

您能够通过电商爬虫API获得什么?

数据来源

通过电子商务爬虫API,您可以通过各种来源获得JSON格式的已解析数据。有效地获得所需的电子商务数据,并确保您拥有便于分析所需的一切内容。

世界领先的电子商务市场

搜索页面中的公共数据来源:

产品页面中的公共数据来源: 

额外的1000多家电子商务网站

产品页面中的公开数据: 

*所有数据来源将在购买产品后提供。

电商爬虫API -它是如何运作的?

电商爬虫 API 是一个易于使用的工具,无需任何特殊的基础设施或资源。

  1. 选择产品 ID、链接或搜索短语

  2. 提交 GET 或 POST 请求

  3. 通过REST API直接接收所需的公共数据或上传到云

您会在仪表板上发现什么?

如果您选择使用Oxylabs的电子商务爬虫API,您将获得一个简便的仪表板。您可以关注您的数据使用统计并对您的订阅细节进行跟踪。不仅如此,您还可联系Oxylabs的客户服务团队,无论什么时候都能获得帮助。

身份验证

电子商务爬虫 API 采用了基础 HTTP 身份验证,需要用户名和密码。这是开始使用该工具的最简单方法。

集成方法

Oxylabs的电子商务爬虫API提供了各种集成方法,每一种都有独特的好处。您可以选择一个最适合您需求的方法,并有效地获得所需的电子商务数据。

Push-Pull

当使用 push-pull 集成方法时,您需要与我们的端点保持稳定连接,以获取所需的公共数据。在这种情况下,您只需向我们发送一个请求,然后我们返回您的工作 ID。工作完成后,您可以使用这个id 从 /results端点获取数据。 

您可以自己检查工作状态,或者设置一个接受 POST 请求的监听器。在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。

这种方法相对而言较为简单,轻松即可扩大规模。它提供了以下功能:

Realtime

实时交付方法与之前提到的回调方法类似。主要区别在于您会在同一个开放的 HTTPS 连接上实时取回您的数据。

SuperAPI

当使用 SuperAPI 集成方法时,您只能提供完整格式的 URL,而不是域名或搜索查询参数。您也可以提供诸如位置的额外信息,说明您是否想对请求头中的数据进行解析。

在这种情况下,您应该使用我们的入口节点作为代理,通过电子商务爬虫 API 凭证进行授权,并忽略证书。所需公共数据将通过同一个开放的连接送达您的手中。

参数*

*所有参数将在购买产品后提供。

参数 描述 默认值
source 数据来源 -
url / query 直接 URL(链接) -
user_agent_type 设备类型和浏览器。完整列表可以在此处查阅。 desktop
geo_location 用于检索数据的代理地理位置。所支持位置的完整列表可以在此处查阅。对于某些来源,geo_location 参数设置了交付地点 – 联系我们的销售团队以获取我们的完整文档。 -
locale 区域设置,如 Accept-Language 标头所预期。 -
render 启用 JavaScript 渲染。当目标需要 JavaScript 加载内容时使用它。只通过 Push-Pull(又称回调)方法工作。这个参数有两个可用值:html(获得原始输出)和 png(获得一个 Base64 编码的屏幕截图)。 -
parse true 将返回已解析的数据。如果使用 universal_ecommerce 来源,则需要指定 parser_type。 -
parser_type 可用选项:ecommerce_product。 -
context: content Base64 编码的POST请求体。只有当http_method被设置为post时,它才有用。 -
context:
cookies
传递您自己的 cookies。 -
context:
follow_redirects
指明您是否希望爬虫跟踪重定向(带有目标 URL 的 3xx 响应)以获得重定向链末端的 URL 内容。 true
context:
headers
传递您自己的消息头.。 -
context:
http_method
如果您想通过电子商务万能爬虫向您的目标 URL 发出 POST 请求,请将其设置为 post。 GET
context:
session_id
如果您想在多个请求中使用同一个代理,则可使用这个参数。只要把您的会话设置成您喜欢的任何字符串,我们将为这个 ID 分配一个代理,保留最多 10 分钟。在此之后,如果您用相同的会话 ID 提出另一个请求,一个新的代理将被分配给这个特定的会话 ID。 -
context:
successful_status_codes
定义一个(或几个)自定义的 HTTP 响应代码,在这个代码,我们应该认为抓取成功并将内容返回给您。如果您希望我们返回 503 错误页面或其他一些非标准情况,则可能有用。 -
callback_url 您的回调端点的 URL。 -
storage_type 存储器服务提供者。我们支持 Amazon S3 和谷歌云存储器。这些存储器提供者的 storage_type 参数值相应为 s3 和gcs。完整建置可以在 Upload to Storage 页面查阅。该功能只通过 Push-Pull(回调)方法工作。 -
storage_url 您的存储桶名称。只通过 Push-Pull(回调)方式工作。 -

响应代码

响应 错误信息 描述
204 无内容 您正试图检索一项尚未完成的工作。
400 多个错误信息 错误请求结构可能是参数拼写错误或无效值。响应体将有一个更具体的错误信息。
401 “未提供授权头”/“无效授权头”\“未找到客户” 缺少授权头或登录凭证不正确。
403 禁用 您的账户无法访问此资源。
404 未找到 您正在寻找的工作编号已不存在。
429 请求次数太多 超出了速率上限。请联系您的客户经理以增加上限。
500 未知错误 服务不可用。
524 服务不可用 服务不可用。
612 未定义的内部错误 出了点问题,我们没能处理您提交的工作。您可以重试一次,但无需支付额外费用,因为我们不对未能完成的工作收费。如果这不起作用,请与我们联系。
613 重试太多次后出现故障 我们尝试抓取您提交的工作,但在达到我们的重试上限后取消。

总结

电子商务爬虫 API 是一个高级工具,使您能够从大多数电子商务网站收集大量的实时本地化数据和搜索信息。为了简化集成,我们提供了多种集成和数据交付方式,所有这些方式均确保无缝的数据交付。同于其他 Oxylabs 的产品,电子商务爬虫 API 具有额外好处,包括一个简便的仪表板和 24/7 全天候客户支持。 

我们希望本指南使电子商务API的功能更易理解,并涵盖所有关于使用该产品的问题。如果您仍不清楚该公共数据收集工具的各个方面,请通过support@oxylabs.io与我们取得联系。

关于作者

Iveta Vistorskyte

内容经理

Iveta Vistorskyte 在 Oxylabs 担任一名内容经理。作为一名作家和挑战者,她决定进军技术领域,并立即对这个领域产生了兴趣。当她不工作时,您可能会发现她只是在听她最喜欢的音乐或与朋友们玩棋盘游戏来放松身心。

进一步了解 Iveta

Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。

选择Oxylabs®,业务更上一层楼


联系我们

  • 公众邮箱

    hello@oxylabs.io
  • 客服:

    support@oxylabs.io

经过认证的数据中心和上游提供商

联系我们

公司

  • 关于我们
  • 联系我们
  • 联盟计划

隐私政策

Oxysales, UAB © 2022 保留所有权利©