返回博客

自动执行重复抓取和解析作业:任务管家简介

自动执行重复抓取和解析作业:任务管家简介

Maryia Stsiopkina

2023-05-031 min read

收集网络数据时,自动化很关键,在定期执行相同网络抓取和解析任务时尤其如此。定期重复相同请求很乏味,需要调整时又无法调整。 

在今天的博客文章里,我们来演示如何通过任务管家(Scheduler)配置重复网络抓取。首先,我们简单谈谈任务管家是什么,它有什么作用?然后逐步介绍如何使用它来简化工作。

任务管家是什么?

任务管家是具有自动重复网络抓取和解析任务功能的工具。您可以通过它设置每隔一段时间重复操作,间隔时间可以设置为1分钟、5分钟、1小时、1天、2天等等。我们的所有爬虫API订购服务中都包含这项功能,无需额外收费。 

使用任务管家,您无需发送参数完全相同的新请求。您设置任务后,我们会处理剩下的事情,确保数据按照您设置的频率交付。 

如何设置新任务?

首先,我们强烈建议使用上传到云存储功能,这样,您就可以配置时间表,无需从我们的系统提取数据结果。

现在,我们来看看任务管家的分步操作。您可以通过我们的产品文档查看各种端点、参数和值的详细设置说明。

请观看以下视频,了解如何使用任务管家。 

创建时间表

要与API交互并新建时间表,您需要API客户端(例如Postman),也就是终端,或者任何有HTTP请求库的编程语言。  

现在,要使用任务管家新建一个任务,请通过指定以下信息来输入有效负载:

1. 时间间隔

设置您希望执行抓取和解析任务的时间间隔。因此,提交cron时间表表达式——这是一个命令行,用于安排任务按照指定时间间隔(例如每周一下午3点)定期运行。

2. 参数

然后,输入一组抓取/解析任务参数,系统就会按您刚才排定的时间执行任务。在这里输入您要抓取的目标网站urlcallback_url(回调链接)——任务结束后,我们会向您发送通知。

您也可以在storage_url向我们提供存储链接,这样我们就可以将抓取和解析的数据结果上传到您指定的云存储空间。要了解完整参数值列表及其说明,请查看我们的产品文档

3. 结束时间

最后,通过end_time参数字段输入任务管家结束作业的日期和时间。 

结果

创建时间表后,您便可以在输出结果中看到这些参数和值:schedule_idactiveitems_countcronend_time以及next_run_at,表明已成功完成任务。 

其他端点

任务管家有多个端点,供您在排定一个任务(或多个任务)后使用。 

总结

任务管家是帮助用户自动完成重复抓取和解析任务的强大工具。您可以申请一款爬虫API的免费试用,即可获得为期一周的时间来测试它的功能。 

希望本文对您有所帮助,如果您对任务管家有任何疑问,请随时通过我们网站的实时聊天联系我们,或给我们发送电子邮件。

我们建议您在从事任何类型的抓取活动之前寻求法律咨询,以评估具体情况,并就进一步的流程咨询专业人士的意见。

关于作者

Maryia Stsiopkina

文案

Maryia Stsiopkina 在 Oxylabs 担任一名初级文案。随着她对写作的热情逐渐发展,她在不同的时间点上不是写令人毛骨悚然的侦探故事,就是写儿童童话故事。最终,她发现自己进入了科技仙境,拥有无数隐藏的领域值得他去探索。在业余时间,她用望远镜观鸟(有些人误以为是跟踪,这就是为什么 Maryia 有时会发现自己处于尴尬的境地),制作花卉饰品,并品尝很多泡菜和绿橄榄。

Oxylabs博客上的所有信息均按“原样”提供,仅供参考。对于您使用Oxylabs博客中包含的任何信息或其中可能链接的任何第三方网站中包含的任何信息,我们不作任何陈述,亦不承担任何责任。在从事任何类型的抓取活动之前,请咨询您的法律顾问,并仔细阅读特定网站的服务条款或取得抓取许可。

在这篇文章


  • 任务管家是什么?

  • 如何设置新任务?

  • 其他端点

  • 总结

选择Oxylabs®,业务更上一层楼


隐私政策

oxylabs.cn© 2024 保留所有权利©