爬虫 - zhming45的收藏集 - 掘金

爬虫

更多收藏集

18篇文章 · 0订阅

Python 异步网络爬虫 II

上一部分（Python 异步网络爬虫 I）整理了如何利用 aiohttp 和 asyncio 执行异步网络请求，接下来我们将在此基础上实现一个简洁、普适的爬虫框架。

agent42
9年前
1.4k
41
评论

Python 异步网络爬虫 II

Python 异步网络爬虫 I

本文主要讨论下面几个问题：什么是异步（Asynchronous）编程？为什么要使用异步编程？在 Python 中有哪些实现异步编程的方法？ Python 3.5 如何使用 async/await 实现异步网络爬虫？所谓异步是相对于同步（Synchronous）的概念来说…

agent42
9年前
6.0k
259
3

Python 异步网络爬虫 I

【实战】使用asyncio爬取gitbook内容输出pdf

用到HTML+css转pdf是 https://weasyprint.readthedocs.io/en/stable/index.html。这个工具使用很简单，核心API为：所以我们需要做的，就是获取css文件和html源代码，然后传入output_pdf这个函数就行了。 …

liaochangjiang
7年前
2.2k
2
评论

用PyCharm Profile分析异步爬虫效率

第一个代码如下，就是一个普通的 for 循环爬虫。这段代码跑完花了37s，然后我们用 pycharm 的 profiler 工具来具体看看哪些地方比较耗时间。可以看到 get_html 这个方法占了96.7%的时间。这个程序的 IO 耗时达到了97%，获取 html 的时候…

liaochangjiang
7年前
3.0k
20
2

5 个用 Python 编写非阻塞 web 爬虫的方法

大家在读爬虫系列的帖子时常常问我怎样写出不阻塞的爬虫，这很难，但可行。通过实现一些小策略可以让你的网页爬虫活得更久。那么今天我就将和大家讨论这方面的话题。

一个普普通通简简单单
8年前
1.3k
24
评论

腾讯视频爬虫

当 F12 里查看器是看不到视频地址，如何爬取视频网站。

vinegar19389
9年前
7.1k
79
3

实用的Python3异步爬虫代理池（开源）

异步爬虫代理池，以 Python asyncio 为基础，旨在充分利用 Python 的异步性能。项目使用了 sanic，一个异步网络框架。所以建议运行 Python 环境为 Python3.5+，并且 sanic 不支持 Windows 系统，Windows 用户（比如我 …

一个普普通通简简单单
8年前
6.6k
36
评论

【Python3】利用selenium抓取知乎用户的文章

前段时间，阅读知乎上一些用户写的文章的时候觉得阅读起来比较麻烦，不符合我的阅读感受。比如下边这个，我想阅读牛客网的文章（如图1所示），我会通过标题先进行筛选，但是这样滚动下滑太麻烦了，所以想着不如将标题信息爬下来，另外，点赞数和评论数也顺便抓取下来，这样还能看该用户被点赞数最多…

一个普普通通简简单单
7年前
1.1k
19
评论

实战 | 用aiohttp和uvloop实现一个高性能爬虫

asyncio于Python3.4引入标准库，增加了对异步I/O的支持，asyncio基于事件循环，可以轻松实现异步I/O操作。接下来，我们用基于asyncio的库实现一个高性能爬虫。 Earth View from Google Earth是一款Chrome插件，会在打开新标…

simpleapples
8年前
3.9k
29
1

实战 | 用aiohttp和uvloop实现一个高性能爬虫

Python爬虫_Selenium与PhantomJS入门

Selenium 是一个Web的自动化测试工具，最初是为网站自动化测试而开发的。类型像我们玩游戏用的按键精灵，可以按指定的命令自动化操作，不同是Selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium可以根据…

ZRRJDD
6年前
3.3k
7
1