一、我们需要你做这些事
作为团队核心爬虫工程师,你将全权负责数据采集体系的搭建、优化与运维,直面各类技术挑战,核心工作内容如下:
- 核心爬虫系统开发与架构设计:基于业务需求,设计并开发分布式、高可用、可扩展的爬虫系统,适配网页、小程序、APP等多端数据采集场景,搭建稳定高效的采集架构,实现大规模数据的批量、精准抓取。
- 反爬机制攻坚与突破:深度剖析各类平台反爬策略,应对IP封禁、验证码识别、JS混淆加密、接口签名校验、Cookie风控、浏览器指纹检测等难题,研发针对性破解方案,保障爬虫持续稳定运行,提升数据采集成功率。
- 爬虫性能优化与迭代:优化爬虫调度逻辑、并发策略、请求效率,降低资源损耗与封禁风险;针对采集后的原始数据,完成清洗、去重、结构化处理,对接数据库完成高效存储,保障数据质量贴合业务需求。
- 技术沉淀与问题排查:实时监控爬虫运行状态,快速定位并解决线上采集故障;沉淀爬虫技术方案、攻防经验,优化代码规范,推动采集工具化、自动化,提升团队整体数据采集效率。
- 合规化数据采集:严格恪守法律法规与平台robots协议,仅针对公开数据开展采集工作,坚守技术底线,规避合规风险,实现合规前提下的最大化数据采集。
硬核技能要求
- 精通Python开发,熟练掌握Scrapy、Requests、BeautifulSoup等主流爬虫框架与工具,具备独立开发定制化爬虫的能力;熟悉Selenium、Playwright、Pyppeteer等动态渲染工具,能应对各类JS加载、异步渲染页面。
- 深耕爬虫攻防领域,精通HTTP/HTTPS协议、TCP/IP协议,熟悉前端JS、AJAX逻辑,能独立完成JS逆向、接口分析、加密参数破解,攻克中高阶反爬场景。
- 掌握正则表达式、XPath、CSS选择器等数据解析技巧,熟悉MySQL、MongoDB、Redis等数据库的使用与优化,具备数据清洗、结构化处理实操经验。
- 了解分布式爬虫架构、代理IP池搭建与运维、多线程/多进程/异步IO开发,能优化爬虫并发性能,提升大规模采集效率。
加分项(有相关经验者优先录用)
- 有APP数据采集、接口逆向、模拟器/真机环境采集经验;
- 熟悉验证码识别、滑块验证、图文验证等自动化破解技术;
- 有大型分布式爬虫系统搭建、高并发采集项目落地经验;
- 具备良好的代码规范,有技术文档撰写、经验沉淀习惯。