Python学习小组小项目---猫眼电影数据分析

2020-04-29 290 阅读2分钟

1.任务分配（之后按实际需要再做细分）

成员	任务	标注
徐&&杨	数据爬取部分	A
吴&&苏	数据分析部分	B

2.任务目标

A部分：

注册猫眼电影-》网页等率-》影院-》经典影片
爬取2010-2019年的的华语影坛的（注意是华语的，爬中国大陆、中国香港、中国台湾三个即可）
筛选到每一年的时候，按照默认的“按热门排序”
在每一年当中只要爬取前5页的电影（共150部/年）
4.然后精确到每一年当中的每一部电影里面的详细内容，比如：电影名、电影类别、电影时长、地区、票房累计、猫眼口碑、评分人数、导演、主演（2-4人名字）

做法提示（仅供参考）：（2010-2019年中）一年一年来查找，比如我先找到2010年的，之后我再在地区那里分别筛选（中国大陆、中国香港、中国台湾）的，下一步就选择每一部电影（范围定在前5页），再获取每一步电影里面的内容（上面第4点所说的）那么存储的数据文件表的格式大概为：

B部分：

分析进10年电影导演作品数（可视化图表：词云）
近10年电影的类别（可视化图表：散点图）
近10年票房排行表（图表：天梯图）、
电影时长分布（图表：雷达图）
三个地区每年电影数（图表：柱状图）
港片、台湾片、大陆片进十年的票房趋势（图表：折线图）
导演好评率已经作品数量（图表：双轴折线图）
年份平均口碑（图表：饼状图）
...想到再做
...重点可以分析港片没落，大陆片崛起的原因，这是个可以深究的问题，可以用数据说话

学习平台

A部分：

最好重新去了解HTML的结构，老师不教“正则表达式”，所以想要更好的爬取东西就要去重新了解html的结构。

基础html：www.runoob.com/html/html-i…

徐扬请点击进入学习

徐扬来看看html - DOM

别忘了看python基本语法

看完上面的东西去看老师的回访应该就没有问题了，可以很快弄明白的，遇到的问题可以百度一下，或者github找找当然，也可以去xvideos,91pron,xxlive,猫咪找找

B部分：先去了解一些数据库基本操作、或者python-pandas库，echrats