女王节，请查收来自 51Reboot 的红包你没看错就是给你发红包了，识别小程序领红包。今日报名课程的全部优惠200。

你没看错就是给你发红包了，识别小程序领红包。

今日报名课程的全部优惠200。

在 Python 语言几乎变成人人必会的一项技能时，你还不会这说的过去？作为一个互联网技术从业者连基本的爬数据都做不到，谈什么数据分析和了解互联网呢？学习爬虫技术，学会搜集数据绝对会是你工作和学习汇总的神助手。51Reboot 第18期 Python 公开课内容介绍如下：

**
**

主题：Python3 从青铜到王者——scrapy 爬虫实战

爬虫是什么
requests + pyquery 做简单爬虫
scrapy 是什么
scrapy 核心概念
实战抓取

主讲师

蜗牛

非典型程序员，毕业之后接触了编程，从零基础成长至 BAT 高级工程师，为部门从零组建开发团队，带领完成多个大、中型项目，项目开发经验丰富并且深悉初学者学编程的方法，为人热情，乐于分析。前百度高级工程师、Python 老司机，擅长可视化，追求简洁极致的代码，现任 51Reboot.com 的 Python 课程总监。

爬虫是什么

爬虫一种按照一定的规则，自动地抓取万维网信息的程序或者脚本

万维网（抓取目标）
规则（获取数据的规则）
自动（脚本）

当你需要别的网站的数据的时候，你就需要爬虫

兴趣驱动学习

我要爬整个豆瓣！...
我要爬整个草榴社区！
我要爬知乎各种妹子的联系方式

这些情况，你都需要爬虫

爬虫通用策略

下载抓取目标的数据
- http 下载
设置具体获取数据的规则
- html 解析或者 json 解析
数据存储或者解析
- 文件| mysql | mongodb

http 下载

神器 requests
get
text
json 进阶（cookie 代理等）

html 解析

pyquery
使用 jquery 的语法解析 html 告别正则
#id
.class
html text

爬虫复杂后的问题

网站反爬虫策略
速度
数据去重
抓取策略，深度还是广度

Scrapy

Scrapy 核心概念
理解 html 和 xpath
items 设计
pipeline loader 机制

进阶

模拟登录
保存数据
验证码
分布式爬虫 scrapy-redis
反爬虫策略
phantormjs 动态网页

分享时间：

18年3月8日（周四）

21:00-22:00

**
**

分享方式：

网络直播

**
**

报名方式：

女王节， 请查收来自 51Reboot 的红包

女王节，请查收来自 51Reboot 的红包