怎样节省爬虫代理ip经费

1,627 阅读4分钟

目前的结论:使用隧道代理包月

如果没有兴趣,了解我遇到的坑,可以不用往下看了。

此篇文章纪录下问题,涉及到财务申请,技术变更(代理方案和代码变更),即是公司流程和技术上的双重问题,公司内,繁杂的审批流程问题。

实际遇到了问题,回顾经验,记录问题,再写出来,更好的剖析问题

写下来,总归是好。


故事开始:A公司想开展爬虫业务,用来辅助大数据业务,找点外部数据作为补充

阶段一:从0到1

  • 这里的我的预算阈值是500元/月

为什么是500元,因为隧道代理,一般都是500块钱包月起步的。如果每月预算超过了500,还不如从开始直接用隧道代理。

这个阶段,刚刚起步,我们选择了按量付费的代理,类似芝麻代理HTTP,一个代理ip 0.04元。

由于爬虫用量少,一个月不会超过500块钱,用按量付费的HTTP代理,最为划算。

按量付费的有一个坑,就是自己实现代理的复用,不然,500块钱,用不了多长时间。具体可以参考我的关于复用的讨论

按量付费的HTTP代理,就像手动挡的车,虽然单价便宜(适合新手练手或者高手魔改),但是自己需要处理的问题,比较多,比如复用,还有余额监控告警等等。

余额监控告警

余额监控告警

阶段二:从1到100

  • 这里我的预算阈值是2000-3000元/月

这个阶段,爬虫数据任务逐渐增加,我引入了隧道代理。

500元,5个并发,是隧道代理标配的价格。但是5个并发,满足不了大量的需求。引入500包月的隧道代理+按量计费的HTTP,2个一起用。

20个并发的隧道代理,一般都是2000元左右每月。

  • 如果是,高并发的任务,使用按量付费的HTTP,如果某APP,十几个接口,也就是有十几个数据维度,token有时效性,必须在5min内,并发请求完成。

  • 如果是,需要大量更换ip的场景,并且注意控制定时任务的分布,不能超过隧道代理,500元包月套餐,5个并发的阈值。

阶段三:从100到10000

  • 这里我的预算阈值是3000-10000元/月

全部使用隧道代理,高配置来包月。简单方便,随便换。

阶段四:从10000到未来

  • 这个阶段,预算阈值10000元/月 以上

我觉得可以从B2B的角度,谈一些合作。

使用魔改的手动挡,按量计费;

或者隧道代理;或者其他产品形式,都是可以的。

以上预算的金额,也是毛估估,主要表达的一个大概的范围,和项目中使用代理费用,线性规划的意思。


附录 文章立意补充:

1、本文涵盖了下面的好几个点要求

关于技术需求,系统优化

1、 负责分布式数据采集系统设计、开发、测试、运维工作;
2、 负责数据处理程序设计框架改善, 数据处理性能优化, 系统数据处理的能力提高,关键技术攻关;
3、负责采集算法/反爬策略/代理IP/验证码识别优化研究及落地实施,提升爬取效率及成功率,平衡投入的资金预算和数据产出。
4、监控系统的完善、实时监控任务的进度和警报反馈

2、代理费用,实际上就是一个线性规划的问题,和产品阶段、预算、用量有关。

3、首先需要多看,比如 《爬虫代理哪家强?十大付费代理详细对比评测出炉!》。但是,最重要的是,从实际项目出发,选择方案。

4、使用框架Scrapy,写一个ProxyMiddleware,切换代理,相对来说方便一点。

5、标题参考来源《大家怎样节省手机套餐经费?》 也可以看看,道理相通,大家都有这个问题