爬虫 - shalom2008的收藏集 - 掘金

爬虫

更多收藏集

9篇文章 · 0订阅

Python 爬虫库 - Beautiful Soup 的使用

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，简单来说，它能将 HTML 的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

稀土君
9年前
3.5k
134
评论

Python 爬虫库 - Beautiful Soup 的使用

Python 爬虫利器五之 Selenium 的用法

Selenium 是什么？一句话，自动化测试工具。它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，如果你在这些浏览器里面安装一个 Selenium 的插件，那么便可以方便地实现 Web 界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。话说回来，PhantomJS 不也是一个浏览器吗，那么 Selenium 支持不？答案是肯定的，这样二者便可以实现无缝对接了。

Geedio
9年前
1.7k
36
评论

揭秘 Github 上那些开源项目的 star 数

对 Github 上的那些开源项目，从 star 数的角度进行了小小的挖掘，有点意思，分享一下。

Longerian
9年前
5.2k
34
3

Python HTTP 库：requests 快速入门

requests 库的宣言是 HTTP for Humans （给人用的 HTTP 库）

Geedio
9年前
2.8k
57
评论

利用 Python scrapy 框架用 21 行代码写出一个爬虫

利用 Python3+ scrapy1.3.3，写爬虫。效果不错

凌霄_
9年前
1.2k
32
1

利用 Python scrapy 框架用 21 行代码写出一个爬虫

摩拜单车爬虫源码及解析

作者直接提供可运行的源代码供学习。

vinegar19389
9年前
2.2k
57
1

爬虫技术(二)－客户端爬虫

在上一篇文章《一篇文章了解爬虫技术现状》中，我们总结了目前后台爬虫所面临的交互困难、javascript解析麻烦、以及ip限制三大问题。本期，我们不妨换一种思路来重新思考，说不定会别开生面、柳暗花明。承上书接上文，我们说明了目前后台爬虫所面临的三大问题，此三点对于后台爬虫来…

wendux
9年前
11k
155
8

总结优化的几个要点

懂
9年前
1.0k
17
评论