python基础知识记录1.1

60 阅读2分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第5天,点击查看活动详情

爬虫的概念

使用程序模拟浏览器去访问浏览器,去访问服务器,获取响应信息。

爬虫核心

  1. 爬取整个网页,获取网页信息
  2. 解析数据,根据得到的信息,进行解析

难点

爬虫与反爬虫之间的boyi

爬虫的用途

  • 数据分析/人工数据集合
  • 社交软件冷启动
  • 舆论监测
  • 竞争对手监控
  • 犯罪

爬🐛分类

通用爬虫 🌰:百度、360、goole、搜狗等搜索引擎 功能:访问网页》抓取数据》数据存储》数据处理》提供检索服务 robots协议:一个约定的协议。添加robots.txt文件,来声明自己网站上哪些网址无需抓取,自己写的爬虫不会默认遵守 网站排名seo 根据自己算法排名 百度竞价排名,谁给钱多谁排前面 缺点: 抓取的数据大多无用,不能根据用户定制内容抓取 聚焦爬虫 功能:根据需求,实现爬虫程序,抓取需要的数据 设计思路 确定需要爬取的url 模拟浏览器http协议访问url,获取服务器返回的html代码 解析html代码,获取自己想要的数据

反爬手段

  1. user-agent 中文名为用户代理,简称ua,ta他是一个特殊字符串头,使得服务器能后识别客户使用的操作系统及版本、cpu类型、浏览器版本、浏览器引擎、浏览器语言、浏览器插件等等。
  2. 代理ip 西次代理 快代理 啥事高匿名、匿名代理、和透明代理呢? 使用高匿名代理,服务器不知道你使用了代理,更不知道你的IP地址 使用匿名代理,对方服务器可能知道你使用了代理,不知道你使用的ip 透明代理,对方服务器可以知道你使用了代理,也可以知道你使用了IP
  3. 验证码访问问题 打码平台 云打码平台 超级🦅
  4. 动态加载页面,返回的是js代码,并不是网页的真实数据
  5. 数据加密

异常

当python语句可能会报错时,和其他语言一样需要用try语句来捕获错误,避免错误阻塞线程,导致程序执行结束。try:后面跟着可能会有问题的语句。然后except + 错误类型。后面跟着一个友好的提示即可

try:
    fp = open('xxx.txt', 'r')
    content=fp.read()
except FileNotFoundError:
    print('系统正在维护....')