爬虫 - 啊牛喔的收藏集 - 掘金

爬虫

更多收藏集

9篇文章 · 0订阅

爬虫敏感图片的识别与过滤，了解一下？

我们需要识别出敏感作者的avatar头像,把”皮卡丘“换成”优雅的python“。检查两个图片的相似度，一个简单而快速的算法：感知哈希算法(Perceptual Hash)，通过某种提取特征的方式为每个图片计算一个指纹（哈希），这样对比两个图片相似与否就变成了对比两个指纹异同…

子竹聆风
7年前
2.8k
9
评论

Python爬虫实例：爬取猫眼电影——破解字体反爬

字体反爬也就是自定义字体反爬，通过调用自定义的字体文件来渲染网页中的文字，而网页中的文字不再是文字，而是相应的字体编码，通过复制或者简单的采集是无法采集到编码后的文字内容的。现在貌似不少网站都有采用这种反爬机制，我们通过猫眼的实际情况来解释一下。这是什么鬼，关键信息全是乱码…

丹枫无迹
7年前
2.4k
10
评论

scrapy 爬虫利器初体验(1)

为什么要学 scrapy 呢？看下图，就清楚了。很多招聘要求都有 scrapy，主要是因为 scrapy 确实很强。那到底强在哪里呢？请在文中找答案。首先我们先来学习一下 scrapy 的工作流程。scrapy 文档地址 1、爬虫引擎获得初始请求开始抓取。 2、爬虫引擎开始请…

zone7739
7年前
1.1k
17
6

Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

2. selenium chrome headless 模式获取页码 (需要安装selenium以及配置chrome driver) 中行网站上有四种不同的牌价(现汇买入价,现钞买入价,现汇卖出价,现钞卖出价,中行折算价), 中行折算价暂时先不考虑。现汇买入价——是指账户内的…

NullSpider
7年前
5.7k
12
评论

Python爬取中国银行外汇牌价(爬虫 + PyFlux简单预测分析)--(一)

【动图详解】通过 User-Agent 识别爬虫的原理、实践与对应的绕过方法

随着 Python 和大数据的火热，大量的工程师蜂拥而上，爬虫技术由于易学、效果显著首当其冲的成为了大家追捧的对象，爬虫的发展进入了高峰期，因此给服务器带来的压力则是成倍的增加。企业或为了保证服务的正常运转或为了降低压力与成本，不得不使出各种各样的技术手段来阻止爬虫工程师们毫无…

已注销
7年前
7.1k
52
11

用Node+wechaty写一个爬虫脚本每天定时给女(男)朋友发微信暖心话

在评论区偶然看到一位读者说可不可以用微信实现一下。然后最近刚好在做微信机器人的小项目，那就把这个定时任务放到微信上去做吧，说干就干，撸了一下午终于撸出来了。为了防止占用你的微信号，你和你的爱人添加我的微信后。你发送指定内容，我将会每天帮你发送消息

Leo_chen
7年前
32k
647
190

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

1. 36氪(36kr)数据----写在前面 36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。 2. 36氪(36kr)数据----数据分析在多次尝试之后，发现per_page最大可以扩展到300，但是当大于100的数据，返回的数据并不是很理想，所以，我…

梦想橡皮擦
7年前
1.7k
6
1

Python爬虫入门教程 31-100 36氪(36kr)数据抓取 scrapy

爬虫不得不学之 JavaScript 入门篇

现在的爬虫越来越难了，不再和之前的那样，随便抓个包就可以找到相关的 url ，然后 post 一下或者 get 一下数据就出来了。还有一个可能就是可能你以前用来学习的爬虫网站太简单了，还没有看见过那些猛的。上两周我就想弄弄知乎登陆，参数的加密算是把 js 代码扣出来了，但是只能…

sergiojune
7年前
2.7k
15
10

那些年，我爬过的北科(八)——反反爬虫之验证码识别

本章将要介绍一下如何识别简单的验证码。会涉及到一些图像的概念以及机器学习的知识。在学习之前，我们先安装本章需要的三个库：图像库Pillow、机器学习库Scikit-Learn、科学计算库Numpy。通过pip命令就可以进行安装。这里主要有三个部分：下载器、分割器、与识别器。…

爱emo的叁叁
7年前
1.5k
12
4