python基础知识记录1.1持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动

持续创作，加速成长！这是我参与「掘金日新计划 · 10 月更文挑战」的第5天，点击查看活动详情

爬虫的概念

使用程序模拟浏览器去访问浏览器，去访问服务器，获取响应信息。

爬虫核心

爬取整个网页，获取网页信息
解析数据，根据得到的信息，进行解析

难点

爬虫与反爬虫之间的boyi

爬虫的用途

数据分析/人工数据集合
社交软件冷启动
舆论监测
竞争对手监控
犯罪

爬🐛分类

通用爬虫 🌰：百度、360、goole、搜狗等搜索引擎功能：访问网页》抓取数据》数据存储》数据处理》提供检索服务 robots协议：一个约定的协议。添加robots.txt文件，来声明自己网站上哪些网址无需抓取，自己写的爬虫不会默认遵守网站排名seo 根据自己算法排名百度竞价排名，谁给钱多谁排前面缺点：抓取的数据大多无用，不能根据用户定制内容抓取聚焦爬虫功能：根据需求，实现爬虫程序，抓取需要的数据设计思路确定需要爬取的url 模拟浏览器http协议访问url,获取服务器返回的html代码解析html代码，获取自己想要的数据

反爬手段

user-agent 中文名为用户代理，简称ua,ta他是一个特殊字符串头，使得服务器能后识别客户使用的操作系统及版本、cpu类型、浏览器版本、浏览器引擎、浏览器语言、浏览器插件等等。
代理ip 西次代理快代理啥事高匿名、匿名代理、和透明代理呢？使用高匿名代理，服务器不知道你使用了代理，更不知道你的IP地址使用匿名代理，对方服务器可能知道你使用了代理，不知道你使用的ip 透明代理，对方服务器可以知道你使用了代理，也可以知道你使用了IP
验证码访问问题打码平台云打码平台超级🦅
动态加载页面，返回的是js代码，并不是网页的真实数据
数据加密

异常

当python语句可能会报错时，和其他语言一样需要用try语句来捕获错误，避免错误阻塞线程，导致程序执行结束。try：后面跟着可能会有问题的语句。然后except + 错误类型。后面跟着一个友好的提示即可

try:
    fp = open('xxx.txt', 'r')
    content=fp.read()
except FileNotFoundError:
    print('系统正在维护....')