这个MediaCrawler爬虫真牛！把7大主流自媒体平台全拿下了凌晨两点，老板甩过来一句话：”小李，把最近几天小红书和

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

凌晨两点，老板甩过来一句话：”小李，把最近几天小红书和抖音上关于这篇文章的评论都整理一下，明天一早要。”

你怎么办？

手动复制？1000条评论你得复制到第二天中午。找现成的工具，要么收费，要么不好使，要么只支持一个平台。

今天给大家介绍的这个GitHub开源项目，上线没多久就狂揽46.3k stars、10k forks，就是来解决这个问题的——MediaCrawler。

（PS:下载网址和方式放在文章最后哦，国内用户需要下载请先点赞+关注后在评论区回复“想要”我会私信发给你）

它不止支持小红书，抖音、快手、B站、微博、贴吧、知乎，你能想到的主流自媒体平台，它一锅端了。

而且关键是开源免费，代码就在GitHub上，你拿来就能用。

今天我们就来深度拆解一下这个爆火的开源项目，看看它到底有多强，普通人又该怎么用。

4万+星意味着什么？这个项目真的解决痛点了

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

GitHub上每天诞生成千上万个项目，能冲到4万+星是

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

什么概念？

这已经是Top级别了。说明这个项目真的戳中了成千上万人的痛点——大家都需要一个能一站式爬取自媒体平台数据的工具。

你想想这个场景：

做市场调研，需要爬竞品评论分析用户痛点
做内容创业，需要看看同行都在做什么选题
做数据分析，需要批量采集公开数据
做学术研究，需要收集社交媒体数据

以前你想做这些，得找N个不同的项目，每个项目配置环境都能折腾你大半天，这个跑不起来那个缺依赖，最后心态崩了。

MediaCrawler不一样，一个项目搞定所有主流自媒体平台，统一配置，统一使用方式，你配置一次，就能用所有平台。

就冲这一点，它值这四万星。

核心数据一览

我写这篇文章的时候，最新数据：

GitHub Stars：46,300+（四万六千三百星）
Forks：10,000+（一万个复制）
Contributors：62位贡献者
最近更新：2天前（作者还在高速更新）

这个更新速度真的很夸张，说明社区非常活跃，有问题很快就能修。平台反爬机制一变，作者很快就更了，你不用自己踩坑。

它支持哪些平台？功能有多强？

我们直接看表格，一目了然：

平台	关键词搜索	指定ID爬取	二级评论	创作者主页	登录缓存	IP代理池	生成词云
小红书	✅	✅	✅	✅	✅	✅	✅
抖音	✅	✅	✅	✅	✅	✅	✅
快手	✅	✅	✅	✅	✅	✅	✅
B站	✅	✅	✅	✅	✅	✅	✅
微博	✅	✅	✅	✅	✅	✅	✅
贴吧	✅	✅	✅	✅	✅	✅	✅
知乎	✅	✅	✅	✅	✅	✅	✅

七个平台，全功能支持。

我给你翻译一下这都是什么功能：

关键词搜索

你搜”最近24小时内AI相关爆款笔记”，它能登录小红书把这个关键词下所有相关的帖子都给你爬下来，总结好，还提供对应链接。

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

指定帖子ID爬

你看到一篇爆文，想把所有评论都爬下来分析，直接给ID，它给你爬得干干净净。

二级评论

就是评论的评论，很多工具只爬第一层评论，这个连回复都给你爬了，数据完整。

指定创作者主页爬

你盯上某个竞品博主，想把他所有作品都爬下来分析，直接给ID，一键爬完。

登录态缓存

你扫二维码登录一次，它给你缓存起来，下次不用重新登，很方便。

IP代理池

怕被封？支持代理池，轮着用IP，降低封号风险。

自动生成评论词云

爬完评论，它直接给你生成词云，什么关键词出现最多一目了然，不用你自己处理。

这功能齐全度，我看完只能说一句：作者真的懂用户。

你想要的，它都给你做好了。

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

技术原理：为什么它能这么稳定？

很多爬虫项目，平台一改反爬，直接就死了。

MediaCrawler为什么能一直活？还更新这么快？因为它技术选型就选了一条最稳的路。

核心技术路线

我给大家简单科普一下：

基于Playwright浏览器自动化 → 真浏览器渲染，不是裸请求
保存登录态 → 你自己扫码登录，cookie存本地，用你自己的账号
无需JS逆向 → 利用浏览器环境直接拿签名参数，不用你去逆向分析加密算法
门槛大幅降低 → 不用天天跟平台的加密算法斗智斗勇

这个路线选择太聪明了。

以前爬小红书抖音，最大的难点就是签名算法，平台天天变，你逆向完了过两天又失效了，累死你。

MediaCrawler直接用浏览器自动化，你登录一次，浏览器帮你把一切都搞定了，签名它自己就有了，根本不用逆向。

平台改算法？关我什么事，浏览器照样能打开。

这就是它能一直稳定可用的核心原因。

这种方案的优缺点

优点：

稳定，平台反爬难度降低一个量级
不需要你懂逆向工程，普通人就能用
登录态持久化，一次登录长期可用
多平台统一架构，好维护好扩展

缺点：

需要浏览器驱动，体积大一点
速度比纯接口请求慢一点
需要登录，不能匿名爬

但话说回来，现在这些大平台，你不登录能看到几个内容？

所以这个取舍，我觉得非常明智。能用比快更重要。

五分钟安装上手教程，其实真的不难

很多人一听到爬虫就觉得很复杂，其实MediaCrawler安装真的不难，五步搞定。

第一步：环境准备

你需要装两个东西：

Python（3.8+以上就行）
Node.js（16.0.0+以上就行）
uv（Python包管理，作者推荐，确实比pip快）

uv安装很简单，去官网装就行，装完验证一下：

uv --version
# 能输出版本号就OK

第二步：克隆项目安装依赖

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync

第三步：安装浏览器驱动

uv run playwright install

这一步它会自动装你需要的浏览器驱动，等着就行。

第四步：修改配置

进入 config 文件夹，打开 base_config.py，里面都是中文注释，你改一下要爬的平台、关键词、ID就行了。

作者注释写得非常清楚，你对着改就行，不用动脑。

第五步：运行

关键词搜索小红书：

uv run main.py --platform xhs --lt qrcode --type search

爬指定帖子ID：

uv run main.py --platform xhs --lt qrcode --type detail

运行之后，它会给你弹出二维码，打开小红书APP扫码登录就行，登录完它就开始爬了。

就这么简单。五分钟，从克隆到运行，搞定。

多种数据保存格式，满足你不同需求

爬完的数据存哪？MediaCrawler支持多种存储方式：

CSV → 最常用，Excel就能打开
JSON → 方便程序后续处理
JSONL → 大数据推荐这个格式
Excel → 给不会编程的老板看，直接打开
SQLite → 本地轻量数据库
MySQL → 存大量数据

不管你什么需求，它都给你考虑到了。

实际使用场景：看看别人都用它做什么

说了这么多，我们来看几个实际的使用场景，你就知道这个工具能帮你做什么了。

场景一：竞品分析，用户痛点挖掘

你的需求： 我想做美妆新品，想知道小红书上大家对同类产品都在吐槽什么。

使用MediaCrawler：

配置关键词，比如”粉底液卡粉”
运行搜索，爬100篇笔记，把所有评论都爬下来
它自动给你生成词云，你一眼就能看到大家吐槽最多的是什么

结果： 一下午搞定你原来一周的活，用户痛点一目了然，比你自己一个个看高效一百倍。

场景二：竞品博主监控，选题分析

你的需求： 我做美食探店，想看看本地头部博主最近都在更什么选题，哪些选题互动高。

使用MediaCrawler：

配置博主ID
运行爬取创作者主页
所有帖子标题、内容、点赞数、评论数全给你爬下来
你自己排序一下，就能看到什么选题互动好

结果： 选题不用瞎想了，看看同行什么火你做什么，少走很多弯路。

场景三：舆情监测，口碑追踪

你的需求： 我的品牌出了新产品，想看看小红书抖音大家口碑怎么样，有没有负面评价。

使用MediaCrawler：

关键词搜你的品牌名
爬所有提到你的帖子和评论
导出Excel，筛选打分，看看舆论走向

结果： 不用你一天天刷，定时爬一次，舆情动态掌握得清清楚楚。

场景四：数据分析师，做数据集

你的需求： 我做NLP研究，需要社交媒体评论数据集做训练。

使用MediaCrawler：

一句话，你要多少数据它给你爬多少，导成JSONL直接训练模型。

狂揽46K Stars！这个爬虫工具把小红书抖音全拿下了

还有Pro版本？这是什么？

作者还做了一个 MediaCrawlerPro 版本，是付费订阅的，核心升级点我给大家列一下：

核心功能升级

✅ 自媒体内容拆解Agent（新增）
✅ 断点续爬（重点特性，爬一半断了能接着爬）
✅ 多账号 + IP代理池完整支持
✅ 去除Playwright依赖，使用更简单
✅ 完整Linux环境支持

架构设计优化

✅ 代码重构，解耦更干净，易读易维护
✅ 企业级代码质量
✅ 完美架构设计，扩展性更强，学习价值更大

如果你是个人学习，免费版完全够用了。如果你是企业用，或者需要更高级的功能，可以考虑订阅Pro版本。

作者也说了，开源版本一直会保持更新，Pro是给需要更多功能的人准备的，不买也完全不影响用。

这点我觉得挺赞的，作者吃相不难看，给社区保留了完整的免费版本。

安全与法律：这些红线你绝对不能碰

这个必须放在前面说清楚。爬数据有风险，使用需谨慎。

作者的免责声明我给大家搬过来

项目作者写得非常清楚，我原文转过来：

本项目仅供学习和研究使用，禁止用于商业用途和非法用途
用户必须自己承担使用本项目的一切法律责任
严禁用于 非法侵入他人计算机系统、侵犯他人知识产权等违法行为
开发者不对你使用本项目造成的任何损失承担责任

给普通人的几条安全建议

一定要用小号登录，千万别用主号，万一被封你别哭
控制爬取频率，别一上来就爬几万条，太猛容易被封
只爬公开信息，别爬隐私信息
遵守平台规则和当地法律，这个是底线

聊聊这个项目为什么能这么火

我研究完这个项目，最大的感受就是——它把一件复杂的事情做得足够简单。

做自媒体数据采集，这个需求存在很久了，为什么之前没有一个这么火的项目？

因为以前的项目：

要么只支持一个平台
要么需要你懂JS逆向，门槛太高
要么没人维护，平台一改就用不了
要么各种配置，折腾半天跑不起来

MediaCrawler解决了所有这些问题：

多平台一站式 → 你不用找N个项目
浏览器自动化路线 → 不用逆向，门槛暴跌
社区活跃 → 有问题很快修，平台变了更得快
配置清晰 → 中文注释，照着改就能用
功能齐全 → 你想要的功能它都有

所以它能冲到4.6万星，真的是实力使然。

常见问题解答，你想问的都在这

我整理了几个大家问得最多的问题：

Q: 这个真的免费吗？可以商用吗？

A: 开源版本完全免费，代码MIT许可证。但是作者明确禁止商用，只能用于学习研究，商用需要买Pro或者自己联系作者授权。

Q: 支持Windows吗？

A: 支持，作者专门修复了Windows下的编码问题，放心用。

Q: 需要花钱吗？

A: 开源版本一分钱不用花，自己clone下来就能用。Pro版本是付费订阅，需要的再买。

Q: 爬下来的数据存在哪？

A: 支持CSV、JSON、JSONL、Excel、SQLite、MySQL，你选一个就行，默认配置应该就满足你需求。

Q: 封号风险大吗？

A: 任何爬虫都有封号风险，一定要用小号，控制频率，别太猛，一般没事。作者也支持代理池，怕封就配代理。

Q: 不会编程能玩吗？

A: 说实话，还是需要一点基本的命令行操作能力，完全不会编程可能有点费劲。但是你跟着教程一步一步来，其实也不难，现在都配置好了，你改个数就行。

写在最后：数据就是新时代的石油

现在这个自媒体时代，谁掌握了数据，谁就掌握了主动权。

你做竞品分析需要数据，你做市场调研需要数据，你做内容创作需要数据，你做产品开发需要数据。

但是以前，想拿到这些数据，你得懂爬虫，懂逆向，懂各种平台的反爬机制，门槛很高。

现在MediaCrawler把这个门槛给你打到几乎为零。只要你会点基本的命令行操作，五分钟就能跑起来，就能拿到你想要的数据。

这就是开源的力量，这就是这个项目能火到四万六千星的原因。

最后，还是那句话：这个工具仅供学习研究使用，一定遵守法律法规，一定不要用于非法用途。

项目地址

GitHub： github.com/NanmiCoder/…

⭐如果你有openclaw，只需要把上面的网址发给他，让他安装就可以了。

⭐如果是国内的用户无法下载下载外网或者下载速度很慢的，可以点赞关注收藏本文章，然后评论里留下“想要”，我会私信发给你国内用户的网盘下载链接，下载后即可使用。

关注我，持续分享好用的AI工具、开源项目和赚钱思路。

觉得这篇文章对你有帮助，别忘了点赞转发，让更多需要的人看到。