爬虫 - SumH的收藏集 - 掘金

爬虫

更多收藏集

7篇文章 · 0订阅

爬虫必学知识之正则表达式上篇

在向网页进行了提交请求之类的之后，我们可以得到了网页的返回内容，里面自然而然会有我们想要的数据，但是html元素文本这么多，我们不可能一一去找我们需要的数据，这时就需要用到正则表达式了，正则表达式是学爬虫必须学的内容，而且不止python可以用，java等其他语言都可以用，所…

sergiojune
8年前
1.0k
20
评论

近期的爬虫工作杂谈

最近在做自然语言理解处理相关的东西，主要是信息抽取方面的需求，由于没有好的公开数据集用作训练及测试，于是只能先自己去权威平台上爬取收集数据，所以这就涉及到了爬虫。写爬虫用什么语言？由于我较熟且常用的大语言是 java、c++ 和 python。所以用这三种语言写爬虫其实都可以…

超人汪小建
8年前
3.8k
46
2

利用puppeteer破解极验的滑动验证

1. 打开前端网，点击登录。 2. 填写账号，密码。 3. 点解验证按钮，通过滑动验证，最后成功登陆。 github上可以checkout。 1. 将这个两个文件保存到文件夹下面，终端切换到当前路径下 2. npm i 3. 补上前端网的账号，密码 4. node run 1.…

YDJFE
8年前
24k
396
31

利用puppeteer破解极验的滑动验证

Node: Puppeteer + 图像识别实现百度指数爬虫

之前看过一篇脑洞大开的文章，介绍了各个大厂的前端反爬虫技巧，但也正如此文所说，没有100%的反爬虫方法，本文介绍一种简单的方法，来绕过所有这些前端反爬虫手段。可以发现，百度指数实际上在前端做了一定的反爬虫策略。当鼠标移动到图表上时，会触发两个请求，一个请求返回一段html，一…

岛书Z
8年前
8.7k
196
8

python模拟登陆知乎（最新版)

（主要是qq群内有人在模拟登陆知乎，一直不成功）然后我抓包看了下，发现知乎登陆页已经改版了，而且难度大大提高了。 grant_type=password. 那么这个payload就很好理解了. 发现找到了，但是参数是js动态生成的... 第三步：慢慢调试。。。直到找到如何生成的…

gaojin39160
8年前
2.3k
33
12

一篇文章了解爬虫技术现状

掘金原创权限刚开通，搬家。如果你已经看过此文，请跳过。本文全面的分析了爬虫的原理、技术现状、以及目前仍面临的问题。如果你没接触过爬虫，本文很适合你，如果你是一名资深的虫师，那么文末的彩蛋你可能感兴趣。需求万维网上有着无数的网页，包含着海量的信息，无孔不入、森罗万象。但很多…

wendux
9年前
15k
369
11