爬虫学习

爬虫学习

爬虫学习

用于学习爬虫

等 1 人订阅共8篇文章创建于2023-08-16

python-day08-正则表达式下与数据解析

三大数据解析方式对比以下是XPath、BeautifulSoup4和正则表达式三种数据解析方式与各自应用场景的对比： XPath 优点：XPath可以通过路径表达式指定元素的位置，也可以通过属性和文

2年前
151
1
评论

python-day08-正则表达式下与数据解析

python-day07-数据解析之正则表达式

正则表达式概述正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。正则表达式使用单个字符串来描述、匹配一系列匹配某个语法规则的字符串。正则表达式是繁琐的，但它是强大

2年前
142
1
评论

python-day07-数据解析之正则表达式

python-day06-数据解析之BeautifulSoup4

bs4简介基本概念简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup 是一个可以从HTML或XML文件中提取

2年前
213
1
评论

python-day06-数据解析之BeautifulSoup4

python-day05-数据解析之xpath解析

xpath介绍 xpath是XML路径语言，它可以用来确定xml文档中的元素位置，通过元素路径来完成对元素的查找。HTML就是XML的一种实现方式，所以xpath是一种非常强大的定位方式。基本概念

2年前
348
1
评论

python-day05-数据解析之xpath解析

python-day04-网络请求模块二

urllib模块 urllib了解 urllib 库是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样。有以下几

2年前
224
1
评论

python-day04-网络请求模块二

python-day03-网络请求模块一

urllib模块 urllib了解 urllib 库是 Python 内置的 HTTP 请求库。urllib 模块提供的上层接口，使访问 www 和 ftp 上的数据就像访问本地文件一样。有以下几

2年前
157
1
评论

python-day03-网络请求模块一

python-day02-html页面组成

HTML基础 1、浏览器发展史浏览器的主要功能就是向服务器发出请求，在浏览器窗口中展示HTML文档、PDF、图片、视频等网络内容。这些网络资源的位置由用户使用 URI（统一资源标示符）来指定指定。

2年前
686
5
评论

python-day02-html页面组成

python-day01-认识爬虫

初始爬虫前言引入随着大数据时代的来临，网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的，如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题，而爬虫技术就是为了解决这

2年前
222
2
评论

python-day01-认识爬虫