爬虫 - yzecho的收藏集 - 掘金

爬虫

更多收藏集

9篇文章 · 0订阅

那些年，我爬过的北科(八)——反反爬虫之验证码识别

本章将要介绍一下如何识别简单的验证码。会涉及到一些图像的概念以及机器学习的知识。在学习之前，我们先安装本章需要的三个库：图像库Pillow、机器学习库Scikit-Learn、科学计算库Numpy。通过pip命令就可以进行安装。这里主要有三个部分：下载器、分割器、与识别器。…

爱emo的叁叁
7年前
1.5k
12
4

那些年，我爬过的北科(七)——反反爬虫之使用代理ip

本章将要介绍一下如何使用代理ip解决反爬虫的禁ip的问题，并扩展了解一下代理ip池的构建与adsl服务器的使用。下面，我们先来看一下如何获取自己的ip地址。我们直接在百度上搜索ip，或者通过http://www.ip138.com/这个网站就可以。比如说我现在的ip如下： i…

爱emo的叁叁
7年前
902
6
评论

那些年，我爬过的北科(四)——爬虫进阶之极简并行爬虫框架开发

在看过目录之后，读者可能会问为什么这个教程没有讲一个框架，比如说scrapy或者pyspider。在这里，我认为理解爬虫的原理更加重要，而不是学习一个框架。爬虫说到底就是HTTP请求，与语言无关，与框架也无关。在本节，我们将用26行代码开发一个简单的并发的（甚至分布式的）爬虫…

爱emo的叁叁
7年前
1.4k
4
评论

那些年，我爬过的北科(三)——爬虫进阶之多进程的使用

在爬虫基础之环境搭建与入门中，介绍了如何用Requests下载(爬取)了一个页面，并用BeautifulSoup这个HTML解析库来解析页面里面我们想要的内容。显然，爬虫肯定不是只让我们爬取一个网页的，这样的工作，人也可以做。下面我们来看：http://nladuo.cn/s…

爱emo的叁叁
7年前
509
5
评论

那些年，我爬过的北科(二)——爬虫基础之session登陆

在上一节中，我们在不知道原理的条件下调用了requests.get方法下载了HTML页面。在本节中，我们来说说什么是HTTP请求和它的特点。 GET的信息存储在url中，比如说我们在上节看到的“?categoryId=1”。而POST的信息则把信息存储在form中，比如说我们…

爱emo的叁叁
7年前
624
5
评论

那些年，我爬过的北科(序)——我和爬虫的缘分

不止不觉中，已经大学毕业上了研究生了，其实这一系列教程很早就想开始写，由于一堆事情加上拖到了现在。（原写于2017年9月18号）大概是大二下学期刚开学的时候，我开始接触了Web开发，那个时候跟着网上看视频，学习了HTTP Get与Post请求，了解了网站是怎么个工作的。我当时…

爱emo的叁叁
7年前
1.2k
7
评论

那些年，我爬过的北科(六)——反反爬虫之js渲染

从本章开始，我们将要进入反反爬虫篇的内容。感觉如果是第一听到这个名字的读者肯定是懵逼的状态。现在我们先来介绍一下什么是爬虫、反爬虫、反反爬虫。爬虫其实就是我们前面所学的代码，直接使用requests.get("http://xxx.com")就能拿到网站的源码。但是很多时…

爱emo的叁叁
7年前
2.1k
6
评论

那些年，我爬过的北科(五)——数据存储之使用MongoDB

在前面我们介绍了如何编写爬虫，但是我们的爬虫并没有把数据保存下来，只是简单的显示在控制台中。在本节，我们将简单学习一下数据库，以及如何在python中操作数据库。最后，我们将修改上一节的爬虫框架，使其支持数据库插入。注：如果读者已经了解mongodb，可以直接跳到最后一个部…

爱emo的叁叁
7年前
1.2k
3
评论

那些年，我爬过的北科(一)——爬虫基础之环境搭建与入门

对于网络爬虫来说，其本质就是发送http请求，然后提取网页的内容信息进行入库分析等操作，所以对于任何语言都可以构建爬虫应用。我曾经就用过C#、C++、Java、Swift、Golang、Python这些语言来编写爬虫应用。总结来说，这里还是最推荐python，其优点就是学习简…

爱emo的叁叁
7年前
840
6
评论