返回博客

网页解锁器快速入门指南

Maryia Stsiopkina

2023-04-141 min read

网页解锁器是基于人工智能的代理解决方案,它能够在数据抓取过程中自动解除网站封锁,即使是访问难度极高的网站,也能轻松抓取高质量的公共数据。它配备了集中各种先进技术的动态抓取策略识别系统,包括基于机器学习的代理管理、动态浏览器指纹、基于机器学习的响应识别和其他确保不被阻止,实现顺畅抓取的功能。

想进一步了解我们的网页解锁器?请阅读本文,这份快速入门指南将为您解答所有您感兴趣的问题,让您轻松上手。

使用Oxylabs网页解锁器有哪些好处

  • 抓取时不被网站阻止——利用各种基于人工智能技术的核心功能,轻松绕过网站的先进反机器人系统。

  • 类似真人用户的浏览行为——借助代理、动态指纹识别和自定义Cookie功能,让您的抓取请求看似来自真实的自然用户。

  • 全球覆盖——用户可以从195个国家/地区中选择合适地点,进行国家/地区、城市或特定坐标级别的目标定位。

  • 轻松集成——通过与您设备现有代码兼容的单入口节点连接,只要几分钟即可开始抓取。

  • 24/7实时支持——随时联系我们的客服团队,获取专业技术支持。

技术特点

  • 基于机器学习的代理管理——根据您的目标网站选择最合适的代理池。 

  • 动态指纹——选择合适的标头、Cookie、浏览器属性和代理组合,隐藏您的爬虫身份来规避网站的阻止。

  • 基于机器学习的响应识别——在抓取结果和实验引擎之间创建有效的反馈回路,以确保令人满意的结果质量;

  • 自动重试功能——如果抓取失败,我们的系统会重新选择各项合适的参数后再次发送请求。

  • JavaScript渲染——我们会为您渲染JavaScript网页,因此您只需在请求中提供所需标头以及首选输出格式。

  • 会话控制——对每个请求使用不同的IP,或者使用相同的IP地址通过延长会话(最长10 分钟)发送多个请求。

订购信息

我们提供两类套餐——常规套餐和企业套餐,每一类根据数据使用情况分别提供四种订购选项:

常规: 

  1. 1周免费试用 (1GB)

  2. 初始级(5GB)

  3. 入门级(25GB)

  4. 进阶级(60GB)

企业: 

  1. 专业级(100GB)

  2. 业务级(250GB)

  3. 公司级(500GB)

  4. 定制套餐(1TB+)

除业务级、公司级和定制套餐以外的所有套餐都可以通过我们的自助服务仪表板,点击几下即可完成购买。要购买业务级、公司级或定制套餐,请联系我们的销售团队。

您选择购买进阶级套餐或更高级套餐时,还可以享受专属客户经理的支持服务。请点击此处了解每种套餐的详细信息。

网页解锁器的使用

购买想要的套餐后,您就可以立即开始使用网页解锁器。设置很简单,只需以下几个步骤:

  1. 登录仪表板。

  2. 创建API用户。

  3. 运行测试查询,然后继续设置。

如果您以前使用过代理进行网络抓取,会发现网页解锁器集成过程很熟悉。唯一的区别在于,忽略SSL证书,输入-k--insecure cURL参数(或您首选语言的对应参数)。

要使用网页解锁器发送抓取请求,您需要使用unblock.oxylabs.io:60000端点,并添加您的API用户凭证。如果您观察到成功率很低,或者检索内容为空,请尝试在请求中添加额外标头"x-oxylabs-render: html”。请点击这里了解关于JavaScript渲染的更多信息。通过cURL发送简单请求,示例如下:

curl -k -x unblock.oxylabs.io:60000 -U "USERNAME:PASSWORD" https://example.com

注意,此代码示例不包含任何其他参数,例如代理位置或会话时间设置。因此,我们的系统将添加标准标头,选择最快的代理并将响应结果发送给您。

您可以在我们的Python、PHP、C#、Golang、Java和 Node.js语言技术文档中找到更多代码示例。如需完整的代码示例列表,请访问我们的产品文档

地理位置设置

如果您想访问特定地理位置的代理,只需添加旁边带有特定国家/地区名称的x-oxylabs-geo-location标头。例如,输入美国以连接美国代理:

curl -k -v -x unblock.oxylabs.io:60000 \
-U USERNAME:PASSWORD "https://ip.oxylabs.io" \
-H "x-oxylabs-geo-location: United States"

注意使用您的Oxylabs子用户的登录凭据替换用户名密码

您可以从我们的产品文档中找到更多其他语言的代码示例,并下载受支持的地理位置参数值列表。

会话控制

通过网页解锁器,您可以使用同一代理IP发送多个请求,也可以为每个请求使用不同的IP。要使用相同IP,只需添加x-oxylabs-sesion-id标头以及为相关会话ID选择字符串值。您就可以对连续多个请求使用相同的代理(最长10分钟)。然后,我们将为该特定会话ID分配一个新代理。通过cURL输入的代码示例如下:

curl -k -v -x unblock.oxylabs.io:60000 \
-U USERNAME:PASSWORD "https://ip.oxylabs.io" \
-H "X-Oxylabs-Session-Id: 123randomString"

请在这里了解更多其他语言的代码示例。

标头

为帮助您有效抓取目标网站,网页解锁器支持自定义标头。您可以使用标准标头,例如user-agent或者accept-language,也可以自定义特定目标的标头:

curl -k -v -x unblock.oxylabs.io:60000 \
-U USERNAME:PASSWORD "https://ip.oxylabs.io/headers" \
-H "Your-Custom-Header: interesting header content" \
-H "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.86 Chrome/73.0.3683.86 Safari/537.36" \
-H "Accept-Language: en-US"

请点击这里了解更多其他语言的代码示例:

Cookie

您还可以根据目标网站设置自定义Cookie。系统将在您的第一个请求中返回所有响应标头和Cookie,因此稍后您可以在下一个请求中自定义Cookie并发送请求。在cURL中,输入以下代码:

curl -k -v -x unblock.oxylabs.io:60000 \
-U user:pass1 "https://ip.oxylabs.io" \
-H "Cookie: NID=1234567890; 1P_JAR=0987654321"

请在这里了解更多其他语言的代码示例。

POST请求

使用网页解锁器不仅可以发送GET请求,还可以发送POST请求。在需要将数据发送到目标网站时,这是很有用的功能:

curl -k -v -x unblock.oxylabs.io:60000 \
-X POST \
-U user:pass1 "https://ip.oxylabs.io" \
-d "Some Content"

点击这里了解其他语言的代码示例。

JavaScript渲染

当您需要加载JavaScript,以便将所需数据动态加载到文档对象模型 (DOM) 中时,可以使用x-oxylabs-render: html标头将数据全部渲染并采集到HTML文件中。如果想要获得PNG屏幕截图等数据,可以输入png而不是 html。请点击这里了解代码示例。

自定义状态码和现有状态码

收到2xx4xx状态码后,网页解锁器会将请求标记为成功,但有时网站返回的数据会带有非标准HTTP状态码。在这种情况下,您可以指定可接受状态码,具体做法是添加x-oxylabs-status-code 标头和各种适用于您的HTTP响应码。请记住,2xx4xx仍然会被标记为成功。有关代码示例,请点击访问此链接

在下表中,我们列出了一些最常见的错误状态码:

响应 状态 描述
200 正常 一切顺利,结果如期返回。
400 多次错误信息 请求结构错误。它可能是拼写错误的参数或无效值。响应主体将有一个更具体的错误信息。
401 “未提供授权标头”/ “无效授权标头”/ “未找到用户” 缺少授权标头,或者您的登录凭据不正确。
403 禁止访问 您的帐户无权访问此资源。
404 页面不存在 您要查找的抓取作业ID已不可用。
408 超时 请求超时。
429 请求过多 您超过了速率限制。请与您的客户经理联系以增加您的限额。
500,502,503 内部服务器错误 我们这端出现一些问题。请稍后重试。我们大概已经在修复这些问题,但您也可以向我们报错。
550 重试次数过多后出错 出现问题,我们未能完成您提交的抓取作业。您可以再次尝试,无需额外费用,因为我们不会向您收取故障作业的费用。如果这不起作用,请与我们联系。

GitHub

Oxylabs GitHub知识库帮您了解如何使用最常用的编程语言(例如 C#、GoLang、Java、NodeJs、PHP、Python、Ruby等)集成我们的工具产品来抓取网站。

网页解锁器适用Oxylabs仪表板

Oxylabs仪表板是您管理Oxylabs服务的个人中心。您可以通过仪表板了解网页解锁器使用情况统计信息并且更改子用户密码。请阅读下文,详细了解这些功能:

使用情况统计数据

在“统计数据”(Statistics)中,您可以详细了解每天使用的数据流量。您可以将使用时间段设置为首选,并按子用户和域名筛选使用情况。而且,您还可以查看请求的成功率、平均响应时间以及每个域名的结果数量。

用户管理

您可以在“用户”(Users)部分查看子用户。具体可以查看的信息包括用户名等,必要情况下可以在此更改密码

总结

网页解锁器是网络抓取不可或缺的强大工具,它让您抓取时不被网站阻止,不会出现CAPTCHA验证,也不会受到地理限制的影响,帮助您收集高质量的公共数据。网页解锁器具有丰富的先进反检测功能,如动态指纹和基于机器学习的代理管理,以及其他功能,如可以简化抓取体验的JavaScript渲染。

如果您对网页解锁器还有任何其他疑问,请随时通过实时聊天或发送电子邮件联系我们的支持团队。

关于作者

Maryia Stsiopkina

文案

Maryia Stsiopkina 在 Oxylabs 担任一名初级文案。随着她对写作的热情逐渐发展,她在不同的时间点上不是写令人毛骨悚然的侦探故事,就是写儿童童话故事。最终,她发现自己进入了科技仙境,拥有无数隐藏的领域值得他去探索。在业余时间,她用望远镜观鸟(有些人误以为是跟踪,这就是为什么 Maryia 有时会发现自己处于尴尬的境地),制作花卉饰品,并品尝很多泡菜和绿橄榄。

Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。

在这篇文章


  • 使用Oxylabs网页解锁器有哪些好处

  • 技术特点

  • 订购信息

  • 网页解锁器的使用

  • 网页解锁器适用Oxylabs仪表板

  • 总结

选择Oxylabs®,业务更上一层楼


隐私政策

oxylabs.cn© 2024 保留所有权利©