基于Python的爬虫项目设计与实现

2020-04-28 831 阅读2分钟

项目演示

学习笔记

5G和大数据的趋势:python和web（云）端的流行

python程序的主要思想

python的最大优点就是它拥有很多封装的API和框架，程序主要用到了Beautiful Soup网页解析库和Scrapy爬虫框架，python还自带了可视化框架。

首先分析网页uURL，进行拆分，传参，实现自定义输入关键字。
然后爬取的内容运用csv作为数据库存入，读csv文件，进行统计。
当计数函数执行完成后，将数据可视化。
最后导入数据库

问题1：logging

Python内置的标准模块，用于输出运行日志，可以设置输出日志的等级、日志保存路径、日志文件回滚等

vue或react的生命周期 ### 问题2：过滤可视化数据 ### 问题3：mysql和数据类型 ### 问题4：python3版本不继承python2x

web端的实现

如何最简单地面向对象（用户不需要安装Python）

首先编写html，css
编写响应式服务器
用于响应浏览器请求内部数据库，由于存储量较小，程序用的JSONP作为数据库
实现了用户的登录和注册的验证
有需要的工作资料，和一些可视化图形。

问题1：参照知网本科和硕士论文出错

爬取大量数据，放进自己的服务器，面向用户 ---知识产权问题最开始自己做了一版一周后被查
能在浏览器上调用py程序
设置用户登录注册功能

问题2：填坑，ajax请求时的跨域问题

解决跨域问题

问题3：设置cookie时的安全性

用session生产随机数的user_id

### 问题4：浏览器不能调用py 搜遍全网，没有这种操作
调用exe ### 问题5：python打包由于不会ducker，用了python自带打包框架

4种打包方式
最后使用了niutka

问题6：niutka

先修改注册表，然后调用本地打包好的exe
本地注册表都没了。‘’‘’ 无底洞

总结

python功能强大，也能通过Django框架编写Web，并且可以进行科学计算和统计，获取数据、后端开发、人工智能等方面研究
缺点是模块化太多，稍微降低程序性能，例如在web端不如typescript
完成了python爬虫程序和可视化功能，并且反馈给用户。由爬虫数据我们可以看到，工资分布，和地区分布等问题。

谢谢