讲解一下自己学习到的内容,有不好或错误的地方请指出来;还有自己的文笔不好,请见亮!!!
⼀ python 介绍
Python 是⼀种解释型、⾯向对象、动态数据类型的⾼级编程语⾔。
它被设计为可读性强、 简洁且易于学习,具有⾼效的⾼级数据结构,并且⽀持简单有效的⾯向对象编程。
Python官⽹:www.python.org
⼆ python版本
⽬前 python 的主要版本包括 python2 和 python3
Python2 已经在 2020 年 1 ⽉ 1 ⽇之后不再被官⽅⽀持,建议使⽤ Python 3 进⾏开发和编程。
Python3 本身也有多个⼦版本,例如 Python 3.6、Python 3.7、Python 3.8、Python 3.9 以 及更新的 版本。 每个⼦版本都包含了对语⾔本身的改进和新功能的添加。
三 python注释
单⾏注释: #
多⾏注释:三个单引号 或 三个双引号
注意: '''引号中的内容为注释部分''' """注释引号必须成对出现"""
四python的爬虫:requests库
安装单个库(如requests)
pip install requests
从国内源安装(速度更快)
pip install requests -i mirrors.aliyun.com/pypi/simple…
例子:解析HTML(⾖瓣电影Top250案例)
# 导⼊requests库,⽤于发送HTTP请求
> import requests
# 导⼊lxml库,⽤于解析HTML
> from lxml import etree
# 1. 发送请求获取⽹⻚内容
> url = "https://movie.douban.com/top250"**→访问的url**
#电脑的ip与用什么浏览器
> headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrom
e/120.0.0.0 Safari/537.36'}
> resp = requests.get(url, headers=headers)resp.encoding = 'utf-8'
# 2. 解析HTML
> tree = etree.HTML(resp.text) # 把⽹⻚源码转换成可查询的结构
# 3. XPath定位电影名称(核⼼语法)
# //:全局匹配 | div[@class="item"]:匹配class=item的div标签
# //span[@class="title"][1]:在div内找第⼀个class=title的span标签
# /text():提取标签内的纯⽂本
> titles = tree.xpath('//div[@class="item"]//span[@class="title"][1]/text()'
)
# 4. 打印结果
>for title in titles:
>print(title)