首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
圆方圆PYTHON学院
掘友等级
圆方圆学院
python,机器学习培训
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
Python爬虫--- 1.5 爬虫实践: 获取百度贴吧内容
从网上爬下特定页码的网页。 对于爬下的页面内容进行简单的筛选分析。 找到每一篇帖子的 标题、发帖人、日期、楼层、以及跳转链接。 将结果保存到文本。 在编码之后就是: 西部世界。 链接的末尾处:&ie=utf-8 表示该连接采用的是utf-8编码。 Python3相对于Pytho…
Python爬虫--- 1.4 正则表达式:re库
这里其实就是一个非常简单的删除当前目录下所有txt文件的命令, *号其实就一个 ‘通配符’。表示任何形式的数据。 从这里我们就可以引出正则表达式的概念: re库是Python内置的标准库,所以我们不用安装,直接import re就能直接使用。 使用raw string 的好处是…
Python爬虫--- 1.3 BS4库的解析器
bs4库官方推荐我们使用的是lxml解析器,原因是它具有更高的效率,所以我们也将采用lxml解析器。 bs4 库首先将传入的字符串或文件句柄转换为 Unicode的类型,这样,我们在抓取中文信息的时候,就不会有很麻烦的编码问题了。当然,有一些生僻的编码 如:‘big5’,就需要…
Python爬虫--- 1.2 BS4库的安装与使用
下面我们开始用bs4库解析这一段html网页代码。 可以看到bs4库将网页文件变成了一个soup的类型,事实上,bs4库 是解析、遍历、维护、“标签树“的功能库。 通俗一点说就是: bs4库把html源代码重新进行了格式化,从而方便我们对其中的节点、标签、属性等进行操作。 bs…
个人成就
文章被点赞
50
文章被阅读
11,005
掘力值
398
关注了
5
关注者
108
收藏集
0
关注标签
2
加入于
2018-12-16