这个MediaCrawler爬虫真牛!把7大主流自媒体平台全拿下了

0 阅读13分钟

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了

凌晨两点,老板甩过来一句话:”小李,把最近几天小红书和抖音上关于这篇文章的评论都整理一下,明天一早要。”

你怎么办?

手动复制?1000条评论你得复制到第二天中午。找现成的工具,要么收费,要么不好使,要么只支持一个平台。

今天给大家介绍的这个GitHub开源项目,上线没多久就狂揽46.3k stars10k forks,就是来解决这个问题的——MediaCrawler

(PS:下载网址和方式放在文章最后哦,国内用户需要下载请先点赞+关注后在评论区回复“想要”我会私信发给你)

它不止支持小红书,抖音、快手、B站、微博、贴吧、知乎,你能想到的主流自媒体平台,它一锅端了。

而且关键是开源免费,代码就在GitHub上,你拿来就能用。

今天我们就来深度拆解一下这个爆火的开源项目,看看它到底有多强,普通人又该怎么用。


4万+星意味着什么?这个项目真的解决痛点了

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了

GitHub上每天诞生成千上万个项目,能冲到4万+星是

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了

什么概念?

这已经是Top级别了。说明这个项目真的戳中了成千上万人的痛点——大家都需要一个能一站式爬取自媒体平台数据的工具。

你想想这个场景:

  • 做市场调研,需要爬竞品评论分析用户痛点
  • 做内容创业,需要看看同行都在做什么选题
  • 做数据分析,需要批量采集公开数据
  • 做学术研究,需要收集社交媒体数据

以前你想做这些,得找N个不同的项目,每个项目配置环境都能折腾你大半天,这个跑不起来那个缺依赖,最后心态崩了。

MediaCrawler不一样,一个项目搞定所有主流自媒体平台,统一配置,统一使用方式,你配置一次,就能用所有平台。

就冲这一点,它值这四万星。

核心数据一览

我写这篇文章的时候,最新数据:

  • GitHub Stars:46,300+(四万六千三百星)
  • Forks:10,000+(一万个复制)
  • Contributors:62位贡献者
  • 最近更新:2天前(作者还在高速更新)

这个更新速度真的很夸张,说明社区非常活跃,有问题很快就能修。平台反爬机制一变,作者很快就更了,你不用自己踩坑。


它支持哪些平台?功能有多强?

我们直接看表格,一目了然:

平台关键词搜索指定ID爬取二级评论创作者主页登录缓存IP代理池生成词云
小红书
抖音
快手
B站
微博
贴吧
知乎

七个平台,全功能支持。

我给你翻译一下这都是什么功能:

关键词搜索

你搜”最近24小时内AI相关爆款笔记”,它能登录小红书把这个关键词下所有相关的帖子都给你爬下来,总结好,还提供对应链接。

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了

指定帖子ID爬

你看到一篇爆文,想把所有评论都爬下来分析,直接给ID,它给你爬得干干净净。

二级评论

就是评论的评论,很多工具只爬第一层评论,这个连回复都给你爬了,数据完整。

指定创作者主页爬

你盯上某个竞品博主,想把他所有作品都爬下来分析,直接给ID,一键爬完。

登录态缓存

你扫二维码登录一次,它给你缓存起来,下次不用重新登,很方便。

IP代理池

怕被封?支持代理池,轮着用IP,降低封号风险。

自动生成评论词云

爬完评论,它直接给你生成词云,什么关键词出现最多一目了然,不用你自己处理。

这功能齐全度,我看完只能说一句:作者真的懂用户。

你想要的,它都给你做好了。

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了


技术原理:为什么它能这么稳定?

很多爬虫项目,平台一改反爬,直接就死了。

MediaCrawler为什么能一直活?还更新这么快?因为它技术选型就选了一条最稳的路。

核心技术路线

我给大家简单科普一下:

  1. 基于Playwright浏览器自动化 → 真浏览器渲染,不是裸请求
  2. 保存登录态 → 你自己扫码登录,cookie存本地,用你自己的账号
  3. 无需JS逆向 → 利用浏览器环境直接拿签名参数,不用你去逆向分析加密算法
  4. 门槛大幅降低 → 不用天天跟平台的加密算法斗智斗勇

这个路线选择太聪明了。

以前爬小红书抖音,最大的难点就是签名算法,平台天天变,你逆向完了过两天又失效了,累死你。

MediaCrawler直接用浏览器自动化,你登录一次,浏览器帮你把一切都搞定了,签名它自己就有了,根本不用逆向。

平台改算法?关我什么事,浏览器照样能打开。

这就是它能一直稳定可用的核心原因。

这种方案的优缺点

优点:

  • 稳定,平台反爬难度降低一个量级
  • 不需要你懂逆向工程,普通人就能用
  • 登录态持久化,一次登录长期可用
  • 多平台统一架构,好维护好扩展

缺点:

  • 需要浏览器驱动,体积大一点
  • 速度比纯接口请求慢一点
  • 需要登录,不能匿名爬

但话说回来,现在这些大平台,你不登录能看到几个内容?

所以这个取舍,我觉得非常明智。能用比快更重要。


五分钟安装上手教程,其实真的不难

很多人一听到爬虫就觉得很复杂,其实MediaCrawler安装真的不难,五步搞定。

第一步:环境准备

你需要装两个东西:

  1. Python(3.8+以上就行)
  2. Node.js(16.0.0+以上就行)
  3. uv(Python包管理,作者推荐,确实比pip快)

uv安装很简单,去官网装就行,装完验证一下:

uv --version
# 能输出版本号就OK

第二步:克隆项目安装依赖

git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawler
uv sync

第三步:安装浏览器驱动

uv run playwright install

这一步它会自动装你需要的浏览器驱动,等着就行。

第四步:修改配置

进入 config 文件夹,打开 base_config.py,里面都是中文注释,你改一下要爬的平台、关键词、ID就行了。

作者注释写得非常清楚,你对着改就行,不用动脑。

第五步:运行

关键词搜索小红书:

uv run main.py --platform xhs --lt qrcode --type search

爬指定帖子ID:

uv run main.py --platform xhs --lt qrcode --type detail

运行之后,它会给你弹出二维码,打开小红书APP扫码登录就行,登录完它就开始爬了。

就这么简单。五分钟,从克隆到运行,搞定。

多种数据保存格式,满足你不同需求

爬完的数据存哪?MediaCrawler支持多种存储方式:

  • CSV → 最常用,Excel就能打开
  • JSON → 方便程序后续处理
  • JSONL → 大数据推荐这个格式
  • Excel → 给不会编程的老板看,直接打开
  • SQLite → 本地轻量数据库
  • MySQL → 存大量数据

不管你什么需求,它都给你考虑到了。


实际使用场景:看看别人都用它做什么

说了这么多,我们来看几个实际的使用场景,你就知道这个工具能帮你做什么了。

场景一:竞品分析,用户痛点挖掘

你的需求: 我想做美妆新品,想知道小红书上大家对同类产品都在吐槽什么。

使用MediaCrawler:

  1. 配置关键词,比如”粉底液 卡粉”
  2. 运行搜索,爬100篇笔记,把所有评论都爬下来
  3. 它自动给你生成词云,你一眼就能看到大家吐槽最多的是什么

结果: 一下午搞定你原来一周的活,用户痛点一目了然,比你自己一个个看高效一百倍。

场景二:竞品博主监控,选题分析

你的需求: 我做美食探店,想看看本地头部博主最近都在更什么选题,哪些选题互动高。

使用MediaCrawler:

  1. 配置博主ID
  2. 运行爬取创作者主页
  3. 所有帖子标题、内容、点赞数、评论数全给你爬下来
  4. 你自己排序一下,就能看到什么选题互动好

结果: 选题不用瞎想了,看看同行什么火你做什么,少走很多弯路。

场景三:舆情监测,口碑追踪

你的需求: 我的品牌出了新产品,想看看小红书抖音大家口碑怎么样,有没有负面评价。

使用MediaCrawler:

  1. 关键词搜你的品牌名
  2. 爬所有提到你的帖子和评论
  3. 导出Excel,筛选打分,看看舆论走向

结果: 不用你一天天刷,定时爬一次,舆情动态掌握得清清楚楚。

场景四:数据分析师,做数据集

你的需求: 我做NLP研究,需要社交媒体评论数据集做训练。

使用MediaCrawler:

一句话,你要多少数据它给你爬多少,导成JSONL直接训练模型。

狂揽46K Stars!这个爬虫工具把小红书抖音全拿下了


还有Pro版本?这是什么?

作者还做了一个 MediaCrawlerPro 版本,是付费订阅的,核心升级点我给大家列一下:

核心功能升级

  • ✅ 自媒体内容拆解Agent(新增)
  • ✅ 断点续爬(重点特性,爬一半断了能接着爬)
  • ✅ 多账号 + IP代理池完整支持
  • ✅ 去除Playwright依赖,使用更简单
  • ✅ 完整Linux环境支持

架构设计优化

  • ✅ 代码重构,解耦更干净,易读易维护
  • ✅ 企业级代码质量
  • ✅ 完美架构设计,扩展性更强,学习价值更大

如果你是个人学习,免费版完全够用了。如果你是企业用,或者需要更高级的功能,可以考虑订阅Pro版本。

作者也说了,开源版本一直会保持更新,Pro是给需要更多功能的人准备的,不买也完全不影响用。

这点我觉得挺赞的,作者吃相不难看,给社区保留了完整的免费版本。


安全与法律:这些红线你绝对不能碰

这个必须放在前面说清楚。爬数据有风险,使用需谨慎。

作者的免责声明我给大家搬过来

项目作者写得非常清楚,我原文转过来:

  1. 本项目仅供学习和研究使用,禁止用于商业用途和非法用途
  2. 用户必须自己承担使用本项目的一切法律责任
  3. 严禁用于 非法侵入他人计算机系统、侵犯他人知识产权等违法行为
  4. 开发者不对你使用本项目造成的任何损失承担责任

给普通人的几条安全建议

  1. 一定要用小号登录,千万别用主号,万一被封你别哭
  2. 控制爬取频率,别一上来就爬几万条,太猛容易被封
  3. 只爬公开信息,别爬隐私信息
  4. 遵守平台规则和当地法律,这个是底线

聊聊这个项目为什么能这么火

我研究完这个项目,最大的感受就是——它把一件复杂的事情做得足够简单。

做自媒体数据采集,这个需求存在很久了,为什么之前没有一个这么火的项目?

因为以前的项目:

  • 要么只支持一个平台
  • 要么需要你懂JS逆向,门槛太高
  • 要么没人维护,平台一改就用不了
  • 要么各种配置,折腾半天跑不起来

MediaCrawler解决了所有这些问题:

  • 多平台一站式 → 你不用找N个项目
  • 浏览器自动化路线 → 不用逆向,门槛暴跌
  • 社区活跃 → 有问题很快修,平台变了更得快
  • 配置清晰 → 中文注释,照着改就能用
  • 功能齐全 → 你想要的功能它都有

所以它能冲到4.6万星,真的是实力使然。


常见问题解答,你想问的都在这

我整理了几个大家问得最多的问题:

Q: 这个真的免费吗?可以商用吗?

A: 开源版本完全免费,代码MIT许可证。但是作者明确禁止商用,只能用于学习研究,商用需要买Pro或者自己联系作者授权。

Q: 支持Windows吗?

A: 支持,作者专门修复了Windows下的编码问题,放心用。

Q: 需要花钱吗?

A: 开源版本一分钱不用花,自己clone下来就能用。Pro版本是付费订阅,需要的再买。

Q: 爬下来的数据存在哪?

A: 支持CSV、JSON、JSONL、Excel、SQLite、MySQL,你选一个就行,默认配置应该就满足你需求。

Q: 封号风险大吗?

A: 任何爬虫都有封号风险,一定要用小号,控制频率,别太猛,一般没事。作者也支持代理池,怕封就配代理。

Q: 不会编程能玩吗?

A: 说实话,还是需要一点基本的命令行操作能力,完全不会编程可能有点费劲。但是你跟着教程一步一步来,其实也不难,现在都配置好了,你改个数就行。


写在最后:数据就是新时代的石油

现在这个自媒体时代,谁掌握了数据,谁就掌握了主动权。

你做竞品分析需要数据,你做市场调研需要数据,你做内容创作需要数据,你做产品开发需要数据。

但是以前,想拿到这些数据,你得懂爬虫,懂逆向,懂各种平台的反爬机制,门槛很高。

现在MediaCrawler把这个门槛给你打到几乎为零。只要你会点基本的命令行操作,五分钟就能跑起来,就能拿到你想要的数据。

这就是开源的力量,这就是这个项目能火到四万六千星的原因。

最后,还是那句话:这个工具仅供学习研究使用,一定遵守法律法规,一定不要用于非法用途。

项目地址

GitHub: github.com/NanmiCoder/…

⭐如果你有openclaw,只需要把上面的网址发给他,让他安装就可以了。

⭐如果是国内的用户无法下载下载外网或者下载速度很慢的,可以点赞关注收藏本文章,然后评论里留下“想要”,我会私信发给你国内用户的网盘下载链接,下载后即可使用。

关注我,持续分享好用的AI工具、开源项目和赚钱思路。

觉得这篇文章对你有帮助,别忘了点赞转发,让更多需要的人看到。