Oxylabs

产品

爬虫API

网页爬虫 API

使用网络爬虫API从任何网站获取数据

  • 只为成功交付的数据结果付费

  • 获取高度本地化的实时数据而不被拦截IP

  • 提高效率并降低基础架构成本

观看操作演示

无需信用卡。免费试用为期1周,包括5000个数据结果。

网络爬虫API适用于各种业务用例

收集电商产品数据

  • 实时跟踪产品数据

  • 实施动态定价策略

  • 监控评论以维护品牌声誉

  • 进行市场调研

获取搜索引擎结果

  • 从搜索和图片等不同类型的谷歌页面获取数据

  • 提取特色片段和本地包等SERP元素

  • 跟踪您的品牌和竞争对手的SERP排名

  • 搜索引擎优化(SEO)策略

抓取房地产数据

  • 了解不同平台的实时房产价格

  • 比较价格以进行趋势分析

  • 分析高需求区域的租金

  • 精确估算房产价值

提取旅游行业数据

  • 收集航班和住宿的实时价格

  • 比较不同平台的数据以完善策略

  • 跟踪和分析住宿供应情况

  • 分析客户评论以获取洞见

收集B2B情报数据

  • 利用公司资料来挖掘B2B潜在客户

  • 抓取重要的业务详情和招聘信息

  • 确定潜在的合作伙伴

  • 加强业务开发力度

抓取娱乐网站

  • 通过内容趋势分析发现受众偏好

  • 了解不同网站上的用户交流互动

  • 严格监控媒体,防止侵犯版权

  • 保护知识产权的完整性

深入了解代码举例

从具有挑战性的网站访问数据变得前所未有地简单。通过实用的代码举例了解网络爬虫API的功能。

Input parameters

source

Scraper

Set the scraper to 'amazon_product' to get product data. (Other sources: 'amazon_search', 'amazon_pricing', 'amazon_reviews', 'amazon_questions', 'amazon_bestsellers', 'amazon_sellers')

query

ASIN

Input 10-symbol ASIN code of the product you want to scrape.

geo_location

Localization

Specify the 'Deliver to' location.

domain

Amazon domain

Specify Amazon marketplace you want to scrape.

locale

Interface language

Set the interface language.

render

JavaScript rendering

Enable to load JavaScript-based content.

parse

Structured data

Enable to get structured product data.

Input

Output

Copy

import requests
from pprint import pprint

# Structure payload.
payload = {
    'source': 'amazon_product',
    'query': 'B0BGYWPWNC',
    'geo_location': '90210',
    'domain': 'com',
    'parse': True
}

# Take a free trial or buy the product on our dashboard to create an API user.
# Replace 'USERNAME' and 'PASSWORD' with your API credentials to run this request.

# Get response by using real-time endpoint.
response = requests.request(
    'POST',
'https://realtime.oxylabs.io/v1/queries',
    auth=('USERNAME', 'PASSWORD'),
    json=payload,
)

# Print prettified response to stdout.
pprint(response.json())

See full code

...
"product_details": {
    "os": "iOS 16",
    "ram": "1024 GB",
    "asin": "B0BGYWPWNC",
    "color": "Silver",
    "batteries": "1 Lithium Ion batteries required. (included)",
    "form_factor": "Slate",
    "item_weight": "15.5 ounces",
    "manufacturer": "Apple Computer",
    "customer_reviews": "4.2 4.2 out of 5 stars 1,444 ratings 4.2 out of 5 stars",
    "whats_in_the_box": "iPhone, Charger, Mfi cable, SIM Pin ejector",
    "best_sellers_rank": "#139 in Amazon Renewed (See Top 100 in Amazon Renewed) #49 in Renewed Smartphones #1,003 in Climate Pledge Friendly: Electronics",
    "country_of_origin": "China",
    "item_model_number": "A2483",
    "product_dimensions": "0.28 x 2.8 x 5.75 inches",
    "battery_power_rating": "3095",
    "date_first_available": "September 30, 2022",
    "other_display_features": "Wireless",
    "memory_storage_capacity": "1024 GB",
    "connectivity_technologies": "Wi-Fi",
    "ram_memory_installed_size": "1 TB",
    "standing_screen_display_size": "6.1 Inches"
},
...

请您亲手试用网络爬虫API

在Oxylabs仪表板上探索爬虫API Playground,亲手试用网络爬虫API,浏览技术文档,了解所需的各种信息。

从任何URL收集高质量数据

使用Oxylabs网络爬虫API,您可以绕过反抓取系统,从最复杂的网站中提取大量数据。我们保证检索到的数据准确、无遗漏且整体质量上乘。

自定义标头和Cookie

无需额外付费,即可发送自定义标头和Cookie,增强对抓取的控制。

全球覆盖

我们的优质代理池覆盖195个国家/地区,为您提供不受限制的本地化数据访问。

使用OxyCopilot自动生成API调用代码

OxyCopilot是网络爬虫API的一项重要功能,它是人工智能助手,可以自动生成抓取请求和解析指令的代码,无需人工编码:

  • 使用爬虫API Playground

  • 输入提示

  • 收到可用代码

试用爬虫API免费获取5000条数据结果

高级功能

利用网络爬虫API的智能化功能大规模收集数据。

代理管理

使用来自195个国家/地区的优质代理池进行机器学习(ML)驱动的代理

自定参数

使用自定义标头和Cookie增强您对抓取的控制,无需额外付费。

AI驱动型指纹识别

独特的HTTP标头、JavaScript和浏览器指纹可确保对动态内容的良好适应。

绕过验证

自动重试并绕过CAPTCHA验证

JavaScript渲染

从动态和交互式网站中提取准确、高质量的数据。

网络爬虫

遍历所有网页,只提取必要数据。

Scheduler预约管理

按所需频率设置自动重复抓取作业并将数据存储到AWS S3或GCS。

自定义解析

通过XPath或CSS选择器自定结构化数据采集的解析逻辑。

无头浏览器

仅需一行代码即可渲染基于JavaScript的页面,无需复杂的浏览器开发或第三方自动化工具。设置自定义浏览器指令,启用无头浏览器来执行鼠标点击、输入文本、滚动页面、等待元素出现等操作。

  • 轻松实现JavaScript渲染 

  • 浏览器指令执行 

  • 无缝数据收集

了解更多

无需维护抓取基础架构

使用我们的即用型AI网络数据采集基础架构,

  • 无需自行开发或维护爬虫和浏览器

  • 轻松绕过反抓取系统

  • 将您的资源主要放在数据分析上

集成简便

第1步:在一个请求中输入您的端点URL、API用户凭据和数据负载。

第2步:将此请求发送到我们的API。我们收到后便接管剩下的工作,无需您采取任何其他操作。 

第3步:您直接从API获取数据结果,或系统将数据存储到您指定的云存储桶中。

Copy

curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' 
-H 'Content-Type: application/json' 
-d '{"source": "universal", "url": "https://sandbox.oxylabs.io/products/", "geo_location": "United States"}'

网络爬虫API的价格

常规
企业

只为成功的数据结果付费

避免验证和IP封锁

节省时间和开发成本

机不可失

免费试用

0

1周免费试用

 

初始级

1.35

49美元/月

49美元包月

入门级

1.30

99美元/月

99美元包月

进阶级

1.25

249美元/月

249美元包月

结果
5,000

36,296

76,154

199,200

速率限制

10个请求/秒

50 个请求/秒
50 个请求/秒
50 个请求/秒
高级代理
AI驱动的网络爬取
JavaScript渲染
专属客户经理

年套餐

九折优惠

此折扣适用全线年套餐。联系客服以了解更多信息。

我们接受以下付款方式:

客户感言

“自建抓取解析设备和维护成本高昂,这就是我们和Oxylabs合作的原因。他们提供了市面上性价比最高的产品组合,为我们节省了网络抓取总成本。”

Wei Zheng

Conductor首席产品官

常见问题解答

网络爬虫API是什么?

网络爬虫API是利用API调用通过URL收集数据的软件。用户可以通过网络爬虫与网站服务器进行连接互动,并提取数据。

使用网络爬虫API可以提取哪些类型的数据?

网络爬虫API可以从任何网页(包括电子商务网站和SERP)收集原始HTML数据或结构化JSON数据。而且,它还能利用JavaScript渲染功能,从使用JavaScript进行动态内容加载的网站检索数据。

我可以用网络爬虫API自动重复抓取吗?

我们提供免费Scheduler预约功能,能帮助您通过预约高效自动重复抓取作业。简单说,就是对参数相同的请求可以设置自动定期重复作业。您也无需创建或维护预约时间表脚本。浏览我们的技术文档,进一步了解Scheduler 预约功能。

网络爬虫API需要多长时间才能返回结果?

网络爬虫API可以从全球几乎任意网站实时返回结果。具体交付时间取决于所请求的目标网站。要详细了解具体目标网站所需的时间,请联系您的客户经理或我们的客服团队。

抓取网站是否合法?

只要不违反源目标或数据本身的相关法律,抓取是合法的。我们强烈建议您在进行任何抓取项目前,咨询法律顾问,避免任何潜在风险。

如何使用网络爬虫API?

请按以下三个主要步骤使用网络爬虫API:

  • 首先,创建请求并添加必要信息,例如端点URL、用户凭据和有效负载。

  • 然后将请求发送至API。 

  • 最后,收到结果,您可以通过API直接接收数据,也可以将数据发送到您指定的存储位置。要了解网络爬虫API的实际运行情况,请在此处观看视频演示。

爬虫和解析器有什么区别?

尽管爬虫和解析器在作业中相辅相成,但它们各有不同功能。简单说,爬虫负责从网络检索收集数据,解析器则主要根据预定规则和语法分析这些数据。

网络爬虫API是否有速率限制?

是的,网络爬虫API在提交特定作业时有速率限制。   您所提交的作业处理速率取决于您的套餐计划的规模。例如,免费计划可以处理5000个结果,您可以每秒钟提交5个作业,如果是渲染的作业,每秒钟可以提交一个。而网络爬虫API可以绕过网站上的反机器人措施速率限制。

要了解每个套餐的具体信息,请浏览我们的技术文档

网络爬虫是否已通过ISO认证?

是的,网络爬虫API已通过ISO/IEC 27001:2017认证。该认证表明我们致力于维护符合国际公认数据安全标准的强大信息安全管理系统(ISMS)。

如何通过Postman设置网络爬虫API?

在大规模使用前,不妨先通过Postman 试用网络爬虫API。可以将我们的API集合导入Postman并立即开始抓取。

更多常见问题

选择Oxylabs®,业务更上一层楼


联系我们

经过认证的数据中心和上游提供商

关注我们

  • we chat qr code

    微信公众号

    微信号

    Oxylabs

高级代理解决方案


隐私政策

oxylabs.cn© 2025 保留所有权利©