凌晨两点,老板甩过来一句话:”小李,把最近几天小红书和抖音上关于这篇文章的评论都整理一下,明天一早要。”
你怎么办?
手动复制?1000条评论你得复制到第二天中午。找现成的工具,要么收费,要么不好使,要么只支持一个平台。
今天给大家介绍的这个GitHub开源项目,上线没多久就狂揽46.3k stars、10k forks,就是来解决这个问题的——MediaCrawler。
(PS:下载网址和方式放在文章最后哦,国内用户需要下载请先点赞+关注后在评论区回复“想要”我会私信发给你)
它不止支持小红书,抖音、快手、B站、微博、贴吧、知乎,你能想到的主流自媒体平台,它一锅端了。
而且关键是开源免费,代码就在GitHub上,你拿来就能用。
今天我们就来深度拆解一下这个爆火的开源项目,看看它到底有多强,普通人又该怎么用。
4万+星意味着什么?这个项目真的解决痛点了
GitHub上每天诞生成千上万个项目,能冲到4万+星是
什么概念?
这已经是Top级别了。说明这个项目真的戳中了成千上万人的痛点——大家都需要一个能一站式爬取自媒体平台数据的工具。
你想想这个场景:
- 做市场调研,需要爬竞品评论分析用户痛点
- 做内容创业,需要看看同行都在做什么选题
- 做数据分析,需要批量采集公开数据
- 做学术研究,需要收集社交媒体数据
以前你想做这些,得找N个不同的项目,每个项目配置环境都能折腾你大半天,这个跑不起来那个缺依赖,最后心态崩了。
MediaCrawler不一样,一个项目搞定所有主流自媒体平台,统一配置,统一使用方式,你配置一次,就能用所有平台。
就冲这一点,它值这四万星。
核心数据一览
我写这篇文章的时候,最新数据:
- GitHub Stars:46,300+(四万六千三百星)
- Forks:10,000+(一万个复制)
- Contributors:62位贡献者
- 最近更新:2天前(作者还在高速更新)
这个更新速度真的很夸张,说明社区非常活跃,有问题很快就能修。平台反爬机制一变,作者很快就更了,你不用自己踩坑。
它支持哪些平台?功能有多强?
我们直接看表格,一目了然:
| 平台 | 关键词搜索 | 指定ID爬取 | 二级评论 | 创作者主页 | 登录缓存 | IP代理池 | 生成词云 |
|---|---|---|---|---|---|---|---|
| 小红书 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 抖音 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 快手 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| B站 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 微博 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 贴吧 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 知乎 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
七个平台,全功能支持。
我给你翻译一下这都是什么功能:
关键词搜索
你搜”最近24小时内AI相关爆款笔记”,它能登录小红书把这个关键词下所有相关的帖子都给你爬下来,总结好,还提供对应链接。
指定帖子ID爬
你看到一篇爆文,想把所有评论都爬下来分析,直接给ID,它给你爬得干干净净。
二级评论
就是评论的评论,很多工具只爬第一层评论,这个连回复都给你爬了,数据完整。
指定创作者主页爬
你盯上某个竞品博主,想把他所有作品都爬下来分析,直接给ID,一键爬完。
登录态缓存
你扫二维码登录一次,它给你缓存起来,下次不用重新登,很方便。
IP代理池
怕被封?支持代理池,轮着用IP,降低封号风险。
自动生成评论词云
爬完评论,它直接给你生成词云,什么关键词出现最多一目了然,不用你自己处理。
这功能齐全度,我看完只能说一句:作者真的懂用户。
你想要的,它都给你做好了。
技术原理:为什么它能这么稳定?
很多爬虫项目,平台一改反爬,直接就死了。
MediaCrawler为什么能一直活?还更新这么快?因为它技术选型就选了一条最稳的路。
核心技术路线
我给大家简单科普一下:
- 基于Playwright浏览器自动化 → 真浏览器渲染,不是裸请求
- 保存登录态 → 你自己扫码登录,cookie存本地,用你自己的账号
- 无需JS逆向 → 利用浏览器环境直接拿签名参数,不用你去逆向分析加密算法
- 门槛大幅降低 → 不用天天跟平台的加密算法斗智斗勇
这个路线选择太聪明了。
以前爬小红书抖音,最大的难点就是签名算法,平台天天变,你逆向完了过两天又失效了,累死你。
MediaCrawler直接用浏览器自动化,你登录一次,浏览器帮你把一切都搞定了,签名它自己就有了,根本不用逆向。
平台改算法?关我什么事,浏览器照样能打开。
这就是它能一直稳定可用的核心原因。
这种方案的优缺点
优点:
- 稳定,平台反爬难度降低一个量级
- 不需要你懂逆向工程,普通人就能用
- 登录态持久化,一次登录长期可用
- 多平台统一架构,好维护好扩展
缺点:
- 需要浏览器驱动,体积大一点
- 速度比纯接口请求慢一点
- 需要登录,不能匿名爬
但话说回来,现在这些大平台,你不登录能看到几个内容?
所以这个取舍,我觉得非常明智。能用比快更重要。
五分钟安装上手教程,其实真的不难
很多人一听到爬虫就觉得很复杂,其实MediaCrawler安装真的不难,五步搞定。
第一步:环境准备
你需要装两个东西:
- Python(3.8+以上就行)
- Node.js(16.0.0+以上就行)
- uv(Python包管理,作者推荐,确实比pip快)
uv安装很简单,去官网装就行,装完验证一下:
uv --version
# 能输出版本号就OK
第二步:克隆项目安装依赖
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync
第三步:安装浏览器驱动
uv run playwright install
这一步它会自动装你需要的浏览器驱动,等着就行。
第四步:修改配置
进入 config 文件夹,打开 base_config.py,里面都是中文注释,你改一下要爬的平台、关键词、ID就行了。
作者注释写得非常清楚,你对着改就行,不用动脑。
第五步:运行
关键词搜索小红书:
uv run main.py --platform xhs --lt qrcode --type search
爬指定帖子ID:
uv run main.py --platform xhs --lt qrcode --type detail
运行之后,它会给你弹出二维码,打开小红书APP扫码登录就行,登录完它就开始爬了。
就这么简单。五分钟,从克隆到运行,搞定。
多种数据保存格式,满足你不同需求
爬完的数据存哪?MediaCrawler支持多种存储方式:
- CSV → 最常用,Excel就能打开
- JSON → 方便程序后续处理
- JSONL → 大数据推荐这个格式
- Excel → 给不会编程的老板看,直接打开
- SQLite → 本地轻量数据库
- MySQL → 存大量数据
不管你什么需求,它都给你考虑到了。
实际使用场景:看看别人都用它做什么
说了这么多,我们来看几个实际的使用场景,你就知道这个工具能帮你做什么了。
场景一:竞品分析,用户痛点挖掘
你的需求: 我想做美妆新品,想知道小红书上大家对同类产品都在吐槽什么。
使用MediaCrawler:
- 配置关键词,比如”粉底液 卡粉”
- 运行搜索,爬100篇笔记,把所有评论都爬下来
- 它自动给你生成词云,你一眼就能看到大家吐槽最多的是什么
结果: 一下午搞定你原来一周的活,用户痛点一目了然,比你自己一个个看高效一百倍。
场景二:竞品博主监控,选题分析
你的需求: 我做美食探店,想看看本地头部博主最近都在更什么选题,哪些选题互动高。
使用MediaCrawler:
- 配置博主ID
- 运行爬取创作者主页
- 所有帖子标题、内容、点赞数、评论数全给你爬下来
- 你自己排序一下,就能看到什么选题互动好
结果: 选题不用瞎想了,看看同行什么火你做什么,少走很多弯路。
场景三:舆情监测,口碑追踪
你的需求: 我的品牌出了新产品,想看看小红书抖音大家口碑怎么样,有没有负面评价。
使用MediaCrawler:
- 关键词搜你的品牌名
- 爬所有提到你的帖子和评论
- 导出Excel,筛选打分,看看舆论走向
结果: 不用你一天天刷,定时爬一次,舆情动态掌握得清清楚楚。
场景四:数据分析师,做数据集
你的需求: 我做NLP研究,需要社交媒体评论数据集做训练。
使用MediaCrawler:
一句话,你要多少数据它给你爬多少,导成JSONL直接训练模型。
还有Pro版本?这是什么?
作者还做了一个 MediaCrawlerPro 版本,是付费订阅的,核心升级点我给大家列一下:
核心功能升级
- ✅ 自媒体内容拆解Agent(新增)
- ✅ 断点续爬(重点特性,爬一半断了能接着爬)
- ✅ 多账号 + IP代理池完整支持
- ✅ 去除Playwright依赖,使用更简单
- ✅ 完整Linux环境支持
架构设计优化
- ✅ 代码重构,解耦更干净,易读易维护
- ✅ 企业级代码质量
- ✅ 完美架构设计,扩展性更强,学习价值更大
如果你是个人学习,免费版完全够用了。如果你是企业用,或者需要更高级的功能,可以考虑订阅Pro版本。
作者也说了,开源版本一直会保持更新,Pro是给需要更多功能的人准备的,不买也完全不影响用。
这点我觉得挺赞的,作者吃相不难看,给社区保留了完整的免费版本。
安全与法律:这些红线你绝对不能碰
这个必须放在前面说清楚。爬数据有风险,使用需谨慎。
作者的免责声明我给大家搬过来
项目作者写得非常清楚,我原文转过来:
- 本项目仅供学习和研究使用,禁止用于商业用途和非法用途
- 用户必须自己承担使用本项目的一切法律责任
- 严禁用于 非法侵入他人计算机系统、侵犯他人知识产权等违法行为
- 开发者不对你使用本项目造成的任何损失承担责任
给普通人的几条安全建议
- 一定要用小号登录,千万别用主号,万一被封你别哭
- 控制爬取频率,别一上来就爬几万条,太猛容易被封
- 只爬公开信息,别爬隐私信息
- 遵守平台规则和当地法律,这个是底线
聊聊这个项目为什么能这么火
我研究完这个项目,最大的感受就是——它把一件复杂的事情做得足够简单。
做自媒体数据采集,这个需求存在很久了,为什么之前没有一个这么火的项目?
因为以前的项目:
- 要么只支持一个平台
- 要么需要你懂JS逆向,门槛太高
- 要么没人维护,平台一改就用不了
- 要么各种配置,折腾半天跑不起来
MediaCrawler解决了所有这些问题:
- 多平台一站式 → 你不用找N个项目
- 浏览器自动化路线 → 不用逆向,门槛暴跌
- 社区活跃 → 有问题很快修,平台变了更得快
- 配置清晰 → 中文注释,照着改就能用
- 功能齐全 → 你想要的功能它都有
所以它能冲到4.6万星,真的是实力使然。
常见问题解答,你想问的都在这
我整理了几个大家问得最多的问题:
Q: 这个真的免费吗?可以商用吗?
A: 开源版本完全免费,代码MIT许可证。但是作者明确禁止商用,只能用于学习研究,商用需要买Pro或者自己联系作者授权。
Q: 支持Windows吗?
A: 支持,作者专门修复了Windows下的编码问题,放心用。
Q: 需要花钱吗?
A: 开源版本一分钱不用花,自己clone下来就能用。Pro版本是付费订阅,需要的再买。
Q: 爬下来的数据存在哪?
A: 支持CSV、JSON、JSONL、Excel、SQLite、MySQL,你选一个就行,默认配置应该就满足你需求。
Q: 封号风险大吗?
A: 任何爬虫都有封号风险,一定要用小号,控制频率,别太猛,一般没事。作者也支持代理池,怕封就配代理。
Q: 不会编程能玩吗?
A: 说实话,还是需要一点基本的命令行操作能力,完全不会编程可能有点费劲。但是你跟着教程一步一步来,其实也不难,现在都配置好了,你改个数就行。
写在最后:数据就是新时代的石油
现在这个自媒体时代,谁掌握了数据,谁就掌握了主动权。
你做竞品分析需要数据,你做市场调研需要数据,你做内容创作需要数据,你做产品开发需要数据。
但是以前,想拿到这些数据,你得懂爬虫,懂逆向,懂各种平台的反爬机制,门槛很高。
现在MediaCrawler把这个门槛给你打到几乎为零。只要你会点基本的命令行操作,五分钟就能跑起来,就能拿到你想要的数据。
这就是开源的力量,这就是这个项目能火到四万六千星的原因。
最后,还是那句话:这个工具仅供学习研究使用,一定遵守法律法规,一定不要用于非法用途。
项目地址
GitHub: github.com/NanmiCoder/…
⭐如果你有openclaw,只需要把上面的网址发给他,让他安装就可以了。
⭐如果是国内的用户无法下载下载外网或者下载速度很慢的,可以点赞关注收藏本文章,然后评论里留下“想要”,我会私信发给你国内用户的网盘下载链接,下载后即可使用。
关注我,持续分享好用的AI工具、开源项目和赚钱思路。
觉得这篇文章对你有帮助,别忘了点赞转发,让更多需要的人看到。