首页
沸点
课程
AI Coding
数据标注
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
python爬虫
日嗯任
创建于2023-01-04
订阅专栏
python爬虫
暂无订阅
共16篇文章
创建于2023-01-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
16 爬虫urllib_get请求+post请求
编码集的演变 由于计算机是美国人发明的,所以最早只有127个字符被编码到计算机里,也就是大小写英文和数字和一些符号 , 这就是ASCII编码 而处理中文显然是一个字节是不够的,至少需要两个字节 ,且不
15 爬虫urllib_请求对象的定制
url https 比 http 多了一个ssm协议 ,就是保护安全的 url 包括 协议,主机,端口号,路径,参数,锚点组成 端口号有 : 爬取 https的数据 所以我们就需要用到UA反爬 UA
14 爬虫urllib_下载
下载,使用爬虫 你可以从网页中下载你所需要的数据: 包括网页,文字,视频,图片等等,这样你就可以不需要一个一个去点击保存了
13 爬虫urllib_1个类型6个方法
一个类型 使用 urllib.request.urlopen(url) 返回的类型是 : 6个方法 read 只会一个字节一个字节的去读取,所以 ,若我们在() 里面写上数字,就会读取相应的字节 re
12 爬虫urllib_爬虫概念+基本使用
爬虫相关概念 爬虫核心 爬虫分类 urllib库基本使用 不需要安装 使用之前都要导入 urllib.request 使用 urllib 来获取 百度首页的源码 获取响应中的页面的源码时 ,我们需要
11 文件 + 异常 + 序列化和反序列化
文件的打开与关闭 创建文件 打开文件 文件路径 文件关闭 close 文件的读写 打开就要关闭 !! 写 write 模式 w 注意 这里若文件存在,那么就会清空原来的数据,然后再写入 追加 writ
10 函数
很多重复出现的业务逻辑,我们可以使用函数 定义函数 调用函数 调用即有结果,不调用则没有 函数参数 函数返回值 返回值 : 就是程序中函数完成一件事情后,最后给调用者的结果 返回值的关键字是 retu
09 数据类型高级
字符串高级 获取长度 len 可以获取字符串的长度 查找内容 find 查找指定内容在字符串中是否存在,若存在则返回该内容在字符串第一次出现的位置 , 没有则返回-1 判断 startswith ,
08 输入输出 与 流程控制语句
输出 普通输出 格式化输出 输入 流程控制语句 if 只有 判断条件为 true的时候,才会执行语句 if else elif 多条件进行判断 for range 它的结果是 一个可以遍历的对象 它的
07 运算符
算数运算符 优先级 括号 > 幂 > * / % // > + - 扩展 字符串的加法 字符串和数字的加法 字符串的乘法 赋值运算符 把右边的 赋值给 左边的 多个变量赋多个值 用 , 隔开 复合赋值
06 变量类型转换
转为整型 int str 转为 int型 float 转为int型 对于浮点数 转为 int型时 , 只会保留小数点前面的数值 boolean 转为 int型 true : 1 ; false : 0
05 变量数据类型type 和 命名规范
查看变量数据类型 type 在python中,只要定义了一个变量,且有数据,那么它的类型就已经确定了 ,系统会自动识别 变量没有类型 , 数据才有类型 查看是什么类型的 用 type 变量的命名规范
04 变量(基础使用)
注释 分单行注释 和 多行注释 变量 变量定义 有变量的好处是: 变量可以变化,可以随时修改 程序就是用来处理数据的,而变量就是用来存储数据的 变量类型 number 数字型中 ,爬虫只需要用到两个
03 pycharm
pycharm文件 是 用来编写 python代码 创建文件 运行 文件 创建默认打开显示
python环境的安装
python环境安装 : 到官网打开 python 1、下载python 2、安装 然后选择第一个就可以了,自动进行安装。 3、测试是否安装成功 cmd 输入python 成功!! 若失败,则代表在安
02 pip指令的使用
pip 是python包管理工具,它提供了对python 包的查找、下载、安装、卸载的功能 后期会有 : scrapy 爬虫框架,需要放在python环境中,那么就需要pip指令 安装pip 在安装