女王节, 请查收来自 51Reboot 的红包

232 阅读2分钟

\

你没看错就是给你发红包了,识别小程序领红包。

今日报名课程的全部优惠200。

\

\

在 Python 语言几乎变成人人必会的一项技能时,你还不会这说的过去?作为一个互联网技术从业者连基本的爬数据都做不到,谈什么数据分析和了解互联网呢?学习爬虫技术,学会搜集数据绝对会是你工作和学习汇总的神助手。51Reboot 第18期 Python 公开课内容介绍如下:

**
**

主题:Python3 从青铜到王者——scrapy 爬虫实战

\

目录

  • 爬虫是什么
  • requests + pyquery 做简单爬虫
  • scrapy 是什么  
  • scrapy 核心概念
  • 实战抓取

\


主讲师

\

蜗牛

非典型程序员,毕业之后接触了编程,从零基础成长至 BAT 高级工程师,为部门从零组建开发团队,带领完成多个大、中型项目,项目开发经验丰富并且深 悉初学者学编程的方法,为人热情,乐于分析。前百度高级工程师、Python 老司机,擅长可视化,追求简洁极致的代码,现任 51Reboot.com 的 Python 课程总监。

\

\

爬虫是什么

\

爬虫一种按照一定的规则,自动地抓取万维网信息的程序或者脚本

  • 万维网(抓取目标)
  • 规则(获取数据的规则)
  • 自动(脚本)

当你需要别的网站的数据的时候,你就需要爬虫

\

兴趣驱动学习

\

  • 我要爬整个豆瓣!...
  • 我要爬整个草榴社区!
  • 我要爬知乎各种妹子的联系方式

这些情况,你都需要爬虫

\

爬虫通用策略

\

  • 下载抓取目标的数据
    • http 下载
  • 设置具体获取数据的规则
    • html 解析或者 json 解析
  • 数据存储或者解析
    • 文件| mysql | mongodb

\

http 下载

\

  • 神器 requests
  • get
  • text
  • json  进阶(cookie 代理等)

\

html 解析

\

  • pyquery
  • 使用 jquery 的语法 解析 html 告别正则
  • #id
  • .class
  • html  text

\

爬虫复杂后的问题

\

  • 网站反爬虫策略
  • 速度
  • 数据去重
  • 抓取策略,深度还是广度

\

Scrapy

\

  • Scrapy 核心概念
  • 理解 html 和 xpath
  • items 设计
  • pipeline  loader 机制

\

进阶

\

  • 模拟登录
  • 保存数据
  • 验证码
  • 分布式爬虫 scrapy-redis
  • 反爬虫策略
  • phantormjs 动态网页

\

\

分享时间

18年3月8日(周四)

21:00-22:00

**
**

分享方式

网络直播

**
**

报名方式

1、扫码添加小助手微信,备注"公开课",进入分享群

\

\

\