子竹聆风

珍爱每一根头发 | 🚀面向生活编程

赞

72

|

搜索文章

时间字符串-->时间戳，时区的问题

场景：国外新闻，很多需要做这种转换。新闻源是时间字符串，产品是全球化的，需要转成时间戳代码：坑： Windows系统下，altzone与timezone返回值相差1小时。最好用timezone

4年前
375
点赞
评论

推送kafka或许会丢数据的情况——如何传输单条大于1M的数据

在kafka的默认配置下，限制了数据传输的大小（默认情况下为1M）网络数据采集与提取，有时候会超过这个1M限制一.修改kafka的配置文件 1、知道自己的数据量大概范围，联系大数据运维，修改对应的

4年前
507
点赞
评论

在线Jupyter Notebook环境搭建笔记

Docker 部署 Jupyter Notebook。为什么喜欢在线的编程环境？因为方便快捷，容易拿起，容易放下

4年前
892
点赞
评论

安装selenium gird

多进程并发运行selenium gird。多进程并发运行selenium gird。多进程并发运行selenium gird

4年前
638
点赞
评论

将stealth.min.js打包进egg，分布式selenium gird隐藏webdriver属性

难点解读1、隐藏webdriver demo code参考: 最完美方案！模拟浏览器如何正确隐藏特征本地版本remote selenium gird版本2、静态资源打包进egg，生产环境，读取包中的数

5年前
2.6k
1
评论

爬虫数据需求文档demo

需求背景一次性任务还是周期性涉及到自动登录、cookie、半自动化还是全自动化等等，一般周期任务自动化难度会增加，需要评估需求合规性《网络安全法》时间需求必要性程度如果短时间内不能绕过反爬或者破解，是

5年前
1.2k
点赞
1

selenium 使用代理的方法汇总

在docker中启动selenium gird使用扩展，并使用隧道代理。how to set proxy with authentication in selenium chromedriver python proxy with authentication(账号密码认证代理…

5年前
3.5k
1
1

scrapy-spalsh使用UA和IP代理

核心设置UA，优先在lua脚本中使用splash:set_user_agent(“{ua}”)设置ip代理，使用SplashRequest的proxy代码结果

5年前
561
点赞
2

怎样节省爬虫代理ip经费

如果没有兴趣，了解我遇到的坑，可以不用往下看了。此篇文章纪录下问题，涉及到财务申请，技术变更（代理方案和代码变更），即是公司流程和技术上的双重问题，公司内，繁杂的审批流程问题。写下来，总归是好。为什么是500元，因为隧道代理，一般都是500块钱包月起步的。如果每月预算超过…

5年前
2.0k
3
2

使用Django和Heroku调度你的网络爬虫

We often need a lot of training data for machine learning, and web scraping can be a way to acquire it. 我们经常需要大量的机器学习训练数据，而网络抓取可以成为获取这些数据的一…

5年前
672
2
评论

个人成就

文章被点赞 48

文章被阅读 76,784

掘力值 1,564

加入于

2016-09-22