爬虫技术 - Galaxy_955的收藏集 - 掘金

爬虫技术

更多收藏集

7篇文章 · 0订阅

基于自然语言处理的微博数据抓取与分析

都喝“秋天的第一杯奶茶”了吗？大家对秋天的第一杯奶茶都有什么看法呢？本次我准备以“奶茶”为关键词，抓取微博的帖子内容数据，进行数据分析。

南京彭于晏_
3年前
1.7k
27
7

基于自然语言处理的微博数据抓取与分析

妈妈再也不用担心爬虫被封号了！手把手教你搭建Cookies池

很多时候，在爬取没有登录的情况下，我们也可以访问一部分页面或请求一些接口，因为毕竟网站本身需要做SEO，不会对所有页面都设置登录限制。但是，不登录直接爬取会有一些弊端，弊端主要有以下两点。设置了登录限制的页面无法爬取。如某论坛设置了登录才可查看资源，某博客设置了登录才可查看…

崔庆才丨静觅
8年前
17k
293
13

Python爬虫实战：爬取知乎一个问题下的全部回答

某天，我一单身的哥们看到了知乎上这样一个问题：你的择偶标准是怎样的？这个问题下的回答数竟有有一万八千多条，于是来找我帮忙，看能不能用爬虫爬一下，看看到底都是些什么人在评论，回答的人里面到底是

机灵鹤
4年前
3.9k
1
评论

技术入门 | python利用微博api获取数据

技术入门 | python利用微博api获取数据

rapospectre
8年前
2.8k
19
2

技术入门 | python利用微博api获取数据

JAVA微博爬虫高级篇——自动获取微博cookie（无须账号、每日百万量级）

文章这东西写起来是真的麻烦。我语文特不好，什么语句、语义不通之类的是常有的，请务必不要在意（你们在意也没用）。我第一次用markdown写点东西，打算试试水，因此排版方面会比较乱。语文不行，排版不行，写这些话的时候我自己都在想：“那你写这东西干嘛？直接放代码不是更方便？”。…

不敢动不敢走
6年前
8.9k
13
12

使用Selenium实现微博爬虫：预登录、展开全文、翻页

一、区分动态爬虫和静态爬虫1、静态网页静态网页是纯粹的HTML，没有后台数据库，不含程序，不可交互，体量较少，加载速度快。静态网页的爬取只需四个步骤：发送请求、获取相应内容、解析内容及保存数据。2、动

编程小码农
5年前
2.1k
1
评论

GitHub：新浪微博爬虫，用Python采集新浪微博数据

hello，小伙伴们，大家好，今天给大家分享的开源项目是：weiboSpider，看名字也可以猜到这个项目是做什么的了！没错，这个开源项目就是采集新浪微博一个或多个用户（如：胡歌、迪丽热巴、郭碧婷）数据，并将结果信息写入文件或数据库，写入信息几乎包括用户微博的所有数据，包括用户…

EMM
5年前
3.1k
1
评论