基于Python的爬虫项目设计与实现

831 阅读2分钟

项目演示

学习笔记

5G和大数据的趋势:python和web(云)端的流行

python程序的主要思想

python的最大优点就是它拥有很多封装的API和框架,程序主要用到了Beautiful Soup网页解析库和Scrapy爬虫框架,python还自带了可视化框架。

  • 首先分析网页uURL,进行拆分,传参,实现自定义输入关键字。
  • 然后爬取的内容运用csv作为数据库存入,读csv文件,进行统计。
  • 当计数函数执行完成后,将数据可视化。
  • 最后导入数据库

问题1:logging

Python内置的标准模块,用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等
vue或react的生命周期 ### 问题2:过滤可视化数据 ### 问题3:mysql和数据类型 ### 问题4:python3版本不继承python2x

web端的实现

如何最简单地面向对象(用户不需要安装Python)

  • 首先编写html,css
  • 编写响应式服务器
  • 用于响应浏览器请求内部数据库,由于存储量较小,程序用的JSONP作为数据库
  • 实现了用户的登录和注册的验证
  • 有需要的工作资料,和一些可视化图形。

问题1:参照知网本科和硕士论文出错

  • 爬取大量数据,放进自己的服务器,面向用户 ---知识产权问题 最开始自己做了一版 一周后被查
  • 能在浏览器上调用py程序
  • 设置用户登录注册功能

问题2:填坑,ajax请求时的跨域问题

解决跨域问题

问题3:设置cookie时的安全性

用session生产随机数的user_id

### 问题4:浏览器不能调用py 搜遍全网,没有这种操作
调用exe ### 问题5:python打包 由于不会ducker,用了python自带打包框架

4种打包方式
最后使用了niutka

问题6:niutka

先修改注册表,然后调用本地打包好的exe
本地注册表都没了。‘’‘’ 无底洞

总结

  • python功能强大,也能通过Django框架编写Web,并且可以进行科学计算和统计,获取数据、后端开发、人工智能等方面研究
    缺点是模块化太多,稍微降低程序性能,例如在web端不如typescript
  • 完成了python爬虫程序和可视化功能,并且反馈给用户。由爬虫数据我们可以看到,工资分布,和地区分布等问题。

谢谢