Python学习小组小项目---猫眼电影数据分析

290 阅读2分钟

1.任务分配(之后按实际需要再做细分)

成员 任务 标注
徐&&杨 数据爬取部分 A
吴&&苏 数据分析部分 B

2.任务目标

A部分:

  1. 注册猫眼电影-》网页等率-》影院-》经典影片
  2. 爬取2010-2019年的的华语影坛的(注意是华语的,爬中国大陆、中国香港、中国台湾三个即可)
  3. 筛选到每一年的时候,按照默认的“按热门排序”
    在每一年当中只要爬取前5页的电影(共150部/年)
    4.然后精确到每一年当中的每一部电影里面的详细内容,比如:电影名、电影类别、电影时长、地区、票房累计、猫眼口碑、评分人数、导演、主演(2-4人名字)

做法提示(仅供参考): (2010-2019年中)一年一年来查找,比如我先找到2010年的,之后我再在地区那里分别筛选(中国大陆、中国香港、中国台湾)的,下一步就选择每一部电影(范围定在前5页),再获取每一步电影里面的内容(上面第4点所说的) 那么存储的数据文件表的格式大概为:

B部分:

  1. 分析进10年电影导演作品数(可视化图表:词云)
  2. 近10年电影的类别(可视化图表:散点图)
  3. 近10年票房排行表(图表:天梯图)、
  4. 电影时长分布(图表:雷达图)
  5. 三个地区每年电影数(图表:柱状图)
  6. 港片、台湾片、大陆片进十年的票房趋势(图表:折线图)
  7. 导演好评率已经作品数量(图表:双轴折线图)
  8. 年份平均口碑(图表:饼状图)
  9. ...想到再做
  10. ...重点可以分析港片没落,大陆片崛起的原因,这是个可以深究的问题,可以用数据说话

学习平台

A部分:

最好重新去了解HTML的结构,老师不教“正则表达式”,所以想要更好的爬取东西就要去重新了解html的结构。

基础html:www.runoob.com/html/html-i…

徐扬请点击进入学习

徐扬来看看html - DOM

别忘了看python基本语法

看完上面的东西去看老师的回访应该就没有问题了,可以很快弄明白的,遇到的问题可以百度一下,或者github找找 当然,也可以去xvideos,91pron,xxlive,猫咪找找

B部分: 先去了解一些数据库基本操作、或者python-pandas库,echrats