爬虫 - KZ001的收藏集 - 掘金

爬虫

更多收藏集

5篇文章 · 0订阅

爬虫入门系列（二）：优雅的HTTP库requests

在系列文章的第一篇中介绍了 HTTP 协议，Python 提供了很多模块来基于 HTTP 协议的网络编程，urllib、urllib2、urllib3、httplib、httplib2，都是和 HTTP 相关的模块，看名字觉得很反人类，更糟糕的是这些模块在 Python2 与 …

刘志军
8年前
2.3k
40
3

爬虫入门系列（二）：优雅的HTTP库requests

爬虫入门系列（三）：用 requests 构建知乎 API

在爬虫系列文章优雅的 HTTP 库 requests 中介绍了 requests 的使用方式，这一次我们用 requests 构建一个知乎 API，功能包括：私信发送、文章点赞、用户关注等，因为任何涉及用户操作的功能都需要登录后才操作，所以在阅读这篇文章前建议先了解 Python 模拟…

刘志军
8年前
1.4k
42
评论

爬虫入门系列（三）：用 requests 构建知乎 API

爬虫入门系列（一）：快速理解 HTTP 协议

4 月份给自己挖一个爬虫系列的坑，主要涉及 HTTP 协议、正则表达式、爬虫框架 Scrapy、消息队列、数据库等内容。爬虫的基本原理是模拟浏览器进行 HTTP 请求，理解 HTTP 协议是写爬虫的必备基础，招聘网站的爬虫岗位也赫然写着熟练掌握 HTTP 协议规范，写爬虫还不得不先从…

刘志军
9年前
3.0k
91
1

爬虫入门系列（一）：快速理解 HTTP 协议

如何一小时爬取百万知乎用户信息，并做简单的可视化分析？

作者分享一小时爬取百万知乎用户信息，并做简单的可视化分析的经验。

vinegar19389
9年前
1.1k
39
1

爬虫入门到精通 - 网页的解析（正则）

在爬虫入门到精通第四讲中，我们了解了如何下载网页，这一节就是如何从下载的网页中获取我们想要的内容。作者最后分享的有关正则表达式的链接也不错。

醋
8年前
1.1k
34
评论