Python - 酉云良的收藏集 - 掘金

Python

更多收藏集

12篇文章 · 0订阅

python使用requests+re简单入门爬虫

还没有入门爬虫的过来看下，或者想了解爬虫是什么的也可以进来看看

sergiojune
8年前
1.5k
12
3

[Python3网络爬虫开发实战] 2-爬虫基础 1-HTTP基本原理

在本节中，我们会详细了解HTTP的基本原理，了解在浏览器中敲入URL到获取网页内容之间发生了什么。了解了这些内容，有助于我们进一步了解爬虫的基本原理。 1. URI和URL 这里我们先了解一下URI和URL，URI的全称为Uniform Resource Identifier，…

崔庆才丨静觅
8年前
2.1k
62
3

[Python3网络爬虫开发实战] 2-爬虫基础 1-HTTP基本原理

python线程通信与生产者消费者模式

本文主要讲解生产者消费者模式，它基于线程之间的通信。生产者消费者模式是指一部分程序用于生产数据，一部分程序用于处理数据，两部分分别放在两个线程中来运行。我们可以想象到，这种情况不使用并发机制（如多线程）是难以实现的。如果程序线性运行，只能做到先把所有url抓取到列表中，再遍…

dwzb
8年前
2.8k
54
评论

[Python3网络爬虫开发实战] 2-爬虫基础 3-爬虫的基本原理

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取…

崔庆才丨静觅
8年前
1.3k
33
评论

[Python3网络爬虫开发实战] 2-爬虫基础 3-爬虫的基本原理

python3.x爬取网易云音乐，超详细版

一看到这个，密密麻麻的数字和字母，就猜应该是被加密了，不过可以复制下来看看有没有用。接下来看下他的Response，咦，这是个json，不是html结构的，所以需要用到Json库来进行解析现在开始敲代码吧，先把上面的两个参数复制过来看看。可以看到，利用json.loads(…

sergiojune
8年前
7.5k
176
8

python线程同步机制

在多进程中，每一个进程都拷贝了一份数据，而多线程的各个线程则共享相同的数据。这使多线程占用的资源更少，但是资源混用会导致一些错误，我们来看下面这个例子 change_zero函数会将zero变量加1再减1，按理说无论运行多少次，zero变量都应该是0，但是上面代码运行多次，总会…

dwzb
8年前
2.6k
11
评论

python爬虫常用库之requests详解

在使用了urllib库之后，感觉很麻烦，比如获取个cookie都需要分几步，代码又多，这和python的风格好像有点不太像哈，那有没有更加容易点的请求库呢？答案是有的，那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz，创作这个库的原因就是想让py…

sergiojune
8年前
12k
43
评论

[Python3网络爬虫开发实战] 2-爬虫基础 2-网页基础

用浏览器访问网站时，页面各不相同，你有没有想过它为何会呈现这个样子呢？本节中，我们就来了解一下网页的基本组成、结构和节点等内容。 1. 网页的组成网页可以分为三大部分——HTML、CSS和JavaScript。如果把网页比作一个人的话，HTML相当于骨架，JavaScript…

崔庆才丨静觅
8年前
1.5k
33
评论

[Python3网络爬虫开发实战] 2-爬虫基础 2-网页基础

教你用python登陆豆瓣并爬取影评

鼠标所点的就是我接下来要爬的网站，先看看他的response和请求头之类的信息，他的请求方式时get，response是一个网页结构，这就好办了，我们就可以用正则来匹配出所要的数据，正则还是个很好用的东西，请大家务必要学会啊。那接下来就动手敲代码咯！然后就用post把信息发到…

sergiojune
8年前
2.5k
46
评论