网络爬虫API是配备AI功能的一体化Web数据收集平台,能够满足您数据收集的各项业务需求。它解决了网络抓取各种常见问题,无论是要爬取URL,绕过反爬虫机制,还是要准确的数据解析,将数据传送到指定的云存储位置,都可以满足您的要求。让您高效、简单地从搜索引擎、电子商务网站、旅游平台和任何网站提取公共数据。
在这份指南中,您将了解如何开始使用网络爬虫API发送查询。
1. 注册或登陆(如果您已有账户)Oxylabs仪表板。
2. 选择免费试用版或订阅套餐后,会出现一个弹出窗口,要求创建API用户。填写用户名和密码,然后创建API用户账户。账号密码是用户在执行抓取任务时用于验证身份的信息,应存储在安全且易于访问的位置。
3. 此时会出现一个弹出窗口,其中有三个选项卡,每个选项卡中都有一个cURL测试查询。要进行测试,请的将平台提供的代码复制到您的终端、Postman或根据需要进行其他设置,输入您的API用户凭据,即可运行查询。下方是用一般性源网站爬取sandbox.oxylabs.io/products的代码:
可以使用以下不同源的查询和一些附加参数进行测试:
curl 'https://realtime.oxylabs.io/v1/queries' --user "USERNAME:PASSWORD" -H "Content-Type: application/json" -d '{"source": "amazon_product", "query": "B07FZ8S74R", "geo_location": "90210", "parse": true}'
curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "google_search", "query": "adidas", "geo_location": "California,United States", "parse": true}'
curl 'https://realtime.oxylabs.io/v1/queries' --user 'USERNAME:PASSWORD' -H 'Content-Type: application/json' -d '{"source": "universal", "url": "https://sandbox.oxylabs.io/"}'
响应输出包括结果和抓取作业信息。请参考下方抓取亚马逊, 谷歌和一般性网站的完整输出示例。
要了解如何设置和手动测试网络爬虫API,请观看下方视频。
您还可以通过仪表板dashboard访问Scraper API Playground,从中了解如何使用网络爬虫API。
上文视频中介绍了同步爬取数据的集成方法。使用同步抓取数据的方式,可以通过同一开放HTTPS接口发送请求和接收数据。
用户可以根据以下三种方法,任选一种集成网络爬虫API:
同步
异步
代理端点
异步 | 同步 | 代理端点 | |
---|---|---|---|
类型 | 不同时 | 同时 | 同时 |
抓取作业查询格式 | JSON | JSON | URL |
抓取作业状态查看 | 支持 | 不支持 | 不支持 |
批量查询 | 支持 | 不支持 | 不支持 |
上传到存储器 | 支持 | 不支持 | 不支持 |
使用批量查询功能,用户可以通过单个批量请求提交多达5,000条query或url参数。有关异步和代理端点集成方法的完整举例,请浏览我们的GitHub和技术文档。
网络爬虫API中的专用爬虫,是专门针对特定搜索引擎、电子商务网站及其特定网页类型设计的。请查看下表,了解专用爬虫能够爬取的网站或网页:
域 | 源 |
---|---|
谷歌/Google |
google google_search google_ads google_lens google_maps google_travel_hotels google_images google_suggest google_shopping_search google_shopping_product google_shopping_pricing
|
必应/Bing |
bing bing_search
|
亚马逊Amazon |
amazon amazon_bestsellers amazon_pricing amazon_product amazon_questions amazon_reviews amazon_search amazon_sellers
|
Kroger |
kroger_product kroger_search kroger
|
YouTube Transcript | youtube_transcript |
其他网站 | universal |
我们针对有些数据源,开发了提取特定数据点的专用parse器。要获取结构化数据结果,请在发送到API的请求中使用解析参数将其设置为true。更多详细信息,请查看下表:
抓取目标 | 源 | 网页类型 |
---|---|---|
亚马逊Amazon |
amazon amazon_search amazon_product amazon_pricing amazon_reviews amazon_questions amazon_bestsellers amazon_sellers
|
搜索 产品 优惠详情 评价 问答 畅销榜 卖家 |
谷歌/Google |
google google_search google_ads google_images google_lens google_shopping google_shopping_search google_shopping_product google_shopping_pricing
|
网页搜索 图片搜索 新闻搜索 反向图片搜索 智能镜头搜索页面 购物搜索 购物产品 购物优惠详情 |
必应/Bing |
bing bing_search
|
搜索 |
沃尔玛/Walmart | universal |
搜索 产品 |
Best Buy | universal |
产品 |
Etsy | universal |
产品 |
Target | universal |
搜索 产品 销售商 |
下表列出了主要查询参数如需更多详细信息和其他参数(例如处理特定浏览上下文类型),请访问我们的技术文档。
参数 | 描述 |
---|---|
source |
设置爬虫以处理用户请求。 |
url |
访问目标网站页面的直接URL/链接。 |
query |
根据您想要抓取的目标,接受UTF编码的搜索关键字、亚马逊ASIN编号或Google购物产品代码。 |
parse |
设置为true 时返回解析数据。系统默值为 false 。 |
geo_location |
地理位置参数会对Google的SERP结果进行本地化。在抓取亚马逊网站的数据时,会选择“送货”地点。抓取其他目标网站的的数据时,则会选择代理服务器所在地点进行抓取。 |
render |
设置为html 时,会启用JavaScript渲染。另一个可用值是png ,设置为此值时,返回渲染页面的Base64解码屏幕截图。 |
user_agent_type |
设置设备类型和浏览器。 系统默认值为 desktop 。 |
callback_url |
调用端点URL |
下表中列出了使用网络爬虫API时的常见响应状态码。如果发现其他响应状态码,请联系我们的客服。
响应状态码 | 错误信息 | 描述 |
---|---|---|
200 |
OK | 运行良好。 |
202 |
Accepted | 已收到您的请求。 |
204 |
No content | 您的数据抓取作业未完成。 |
400 |
Multiple error messages | 请求结构错误。可能是参数拼写错误或值无效。响应正文中会提供更具体的错误信息。 |
401 |
Authorization header not provided / Invalid authorization header / Client not found | 缺少授权标头或登陆凭据不正确。 |
403 |
Forbidden | 您的账户无权访问此资源。 |
404 |
Not found | 您要查找的作业ID已不可用。 |
422 |
Unprocessable entity | 有效负载有问题。请确保有效负载是有效的JSON对象。 |
429 |
Too many requests | 超出速率限制。请联系客户经理提高限制额。 |
500 |
Internal server error | 我们遇到了技术问题,请稍后重试。我们可能已知这个问题,但您遇到问题可以可以随时报告。 |
524 |
Timeout | 暂停服务。 |
612 |
Undefined internal error | 作业提交失败。如有faulted (故障)作业, 请免费重试,或联系我们寻求帮助。 |
613 |
Faulted after too many retries | 作业提交失败。如有faulted (故障)作业, 请免费重试,或联系我们寻求帮助。
|
网络爬虫API有一系列智能内置功能。
网络爬虫可以帮助爬取任何网站,选择有用内容,批量交付数据。这款工具可以找到网上的任何网页并从中大规模实时获取数据。请在此处详细了解相关技术信息。
Scheduler预约功能可以帮助您自动预约重复抓取作业和解析作业。您可以通过它设置每隔一段时间重复操作,间隔时间可以设置为1分钟、5分钟、1小时、1天、2天等。使用这一功能,您无需重复发送参数完全相同的新请求。请在此处详细了解相关技术信息。
自定义解析器可以帮助从任何网站获取结构化数据。借助XPath和CSS表达式,可以解析公共数据。使用自定义解析器,可以从HTML中获取必要信息并将其转换为可读格式。
请在此处详细了解相关技术信息。
OxyCopilot是人工智能(AI)网页抓取助手,使用纯英文语言生成API搜索请求和自定义解析指令。它能识别任何网站上的复杂解析模式,无需手动编码,大大加快并简化了网络抓取和解析任务。您可以通过仪表板访问OxyCopilot。请在此处详细了解相关技术信息。
云集成功能支持将抓取的数据交付到指定云存储桶,无论是AWS、S3还是GCS,都可以做到。这样就不需要额外发送请求来获取结果,数据会直接进入云存储。请在此处详细了解相关技术信息
无头浏览器使用户能够与网页进行交互、模仿真人用户行为并高效渲染JavaScript。无需自建和维护无头浏览器解决方案,可以节省时间和资源,以处理更重要的任务。请在此处详细了解相关技术信息。
您可以通过Oxylabs仪表板,轻松了解自己的数据流量使用情况。在统计数据部分,可以查看总的统计数据或按域分类的统计数据。筛选条件包括渲染/未渲染、域、用户、加速以及爬虫数据。此外,还可以筛选过去90天内的使用流量数据。
用户可以免费试用网络爬虫API一周,抓取5,000个数据结果。如有任何问题,欢迎通过在线聊天或发送电子邮件至support@oxylabs.io联系我们的客服。
有关网络数据提取的更多教程和提示,敬请继续关注我们的:
根据用户账户每月的数据订阅套餐,用户账户会有相应的速率限制。根据预计抓取作业的量,速率限制应该是您足够使用的流量。
使用代理端点集成方法时,可将输出保存为图像扩展名来下载图像;使用异步或同步集成方法时,则通过content_encoding 参数来下载图像。
当然可以,免费使用一周,可以获取5,000个数据结果。
您可以根据自己的需求选择套餐,可以选择小型业务级套餐,也可以选择大型企业级套餐,套餐低至49美元/月。
网络爬虫API按照成功抓取结果计费。我方技术原因导致失败的抓取不收费。
关于作者
Jolita Pundzaite
产品营销经理
Jolita Pundzaite 在 Oxylabs 担任一名产品营销经理。拥有近 10 年的营销和技术经验,Jolita 喜欢称自己为“万事通”,不断寻找通过技术改善人们生活的各种方法。她喜欢阅读,远行,在厨房里做实验,或者骑着滑雪板从山上滑下来。当她不工作时,您很可能会发现 Jolita 进行一些 HIIT 锻炼,或者干脆在冰洞里发呆来测试她的极限。
Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。
选择Oxylabs®,业务更上一层楼
oxylabs.cn© 2025 保留所有权利©