相信有很多小伙伴都喜欢玩抖音吧,最近抖音张同学突然火了,两个月涨粉一千多万。看了他的视频,满满的生活气息,让人有一种家的感觉。这就让我很感兴趣了,必须得用Python对他分析一下。
今天这篇文章,我抓取了张同学的视频的评论数据,想从文本分析的角度,挖掘一下大家对张同学感兴趣的点。
张同学 10.4号开始发视频,视频的点赞量一直很高,11.17 号的视频达到了顶峰,收获 250w 个赞,之后关注量也开启了暴涨。
所以挖掘 11.17 号视频的评论,更有助于我们达成目的。
1. 抓取数据
抖音出了 web 版,抓取数据方便了很多。
滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。
有了接口,就可以写 Python 程序模拟请求,获取评论数据。
请求数据要设置一定间隔,避免过大请求,影响别人服务
抓取评论数据有两点需要注意:
•有时候接口可能返回空数据,因此需要多试几次,一般过了人工滑动验证后的接口基本可用
•不同页面之间的数据可能会重复,所以需要跳页请求
2. EDA
11.17 号的视频有 12w 条评论,我只抓取了 1w 多条。
text列是评论。
先对数据做一些探索性的分析,之前介绍过几个EDA工具,可以自动产出基础的数据统计和图表。
这次我用的是ProfileReport
#####Python学习交流Q群:906715085#####
#eda
profile = ProfileReport(df, title='张同学抖音评论数据', explorative=True)
profile
评论时间分布
从评论的时间分布来看,由于发布的视频的时间是17号,所有17、18号评论发布量比较多。不过再往后甚至到了 12.9 号,仍然有不少新评论产生,说明视频热度确实很高。
评论的长度分布
最后
🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。