爬虫

爬虫

等 2 人订阅共8篇文章创建于2021-10-23

Task8、项目实战 -某知名弹幕网站

Task8、项目实战 -某知名弹幕网站 8.1、确定目标网站和需求 8.2、分析页面，获取对应数据包 8.3、核对数据包的数据 8.4、工具辅助我们准确获取参数的对应数据复制好我们要的内容后，打开J

4年前
373
2
评论

Task7、先懂反爬再应对反爬

Task7、先懂反爬再应对反爬 7.1、常见的反爬爬虫像一只虫子，密密麻麻地爬行到每一个角落获取数据，虫子或许无害，但总是不受欢迎的。因为爬虫技术造成的大量IP访问网站侵占带宽资源、以及用户隐私和

4年前
1.0k
2
评论

Task6、动态网站的分析

Task6、动态网站的分析 6.1、常见的动态网页技术 6.1.1、JavaScript JavaScript是-种属于网络的脚本语言，已经被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能

4年前
287
点赞
评论

Task4、获得页面数据 - 数据存储

Task4、获得页面数据 - 数据存储 4.1、存储方式爬虫请求解析后的数据，需要保存下来，才能进行下一步的处理，一般保存数据的方式有如下几种：文件：txt、csv、excel、json等，保存数

4年前
3.4k
2
评论

Task5、静态、动态网站的区别和应对

Task5、静态、动态网站的区别和应对 5.1、什么是静态网站、动态网站静态网站的特点：静态网站是最初的建站方式，浏览者所看到的每个页面是建站者上传到服务器上的一个 html （ htm ）文件，

4年前
1.3k
2
评论

Task3、页面解析 - 解析库的使用

Task3、页面解析 - 解析库的使用 3.1、正则表达式-基本语法正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块，

4年前
230
2
评论

Task1、了解网络爬虫开始，重新认识爬虫

Task1、了解网络爬虫开始，重新认识爬虫 1.1、什么是爬虫 1.1.1、网络爬虫与浏览器区别传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上

4年前
1.2k
2
评论

Task2、页面请求 - 请求库的使用

Task2、页面请求 - 请求库的使用 2.1、爬虫采集方案分类通用爬虫捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网

4年前
505
2
评论