用户的需求和创意是推动产品创新的重要源泉。刷小红书时候,会刷到类似于:有没有需求量很大,但是还没做的APP?这样的主题贴。查看评论详情,可以看到网友们的真实需求和各种奇思妙想。对于独立开发者而言,这无疑是获取产品灵感的好途径。采集大量需求评论数据并清洗总结,就可以得到具有实际参考价值的新数据集,为产品开发提供有力支持。
数据采集
采集小红书评论数据,尽量使用现成的工具,避免自己重复造轮子,节省时间精力,直接github搜索相关开源工具。
经过对比和测试,最后选用的是python写的工具MediaCrawler。这个开源项目支持多个平台的数据采集,功能十分强大。按照介绍文档的操作步骤,下载源代码并且安装依赖包和浏览器驱动。专业技术人员可以选择把数据存储到数据库中方便操作,非专业人员存储在csv文件也可以。在base_config.py文件里,填写好采集主题:需求很大的却没有的app。
相关配置填好以后,执行命令进行采集:
python main.py --platform xhs --lt qrcode --type search
注意采集过程中可能出现一个问题,浏览器模拟工具启动以后登陆第一步小红书,可能扫码登陆不太好用,换成手机号验证码登陆即可。成功登陆以后,就开始了采集工作。
数据清洗
大概过了20多分钟,看到工具因为频繁采集导致被强制停止了。看了一下数据库,一共采集了39个主题贴和4883条评论,把相关性差的主题和关联评论都删除掉。把剩下的采集内容单独复制到一个新的文本文件中。
数据分析
把填好评论内容的文本文件,投喂给大模型进行数据分析。在大模型里上传评论内容文本,并附上以下提示词:
这里是小红书主题:有什么需求很大却没有被满足APP里评论区的内容。
1、分析所有评论内容,去除无效评论,把真实的【需求】数据提取出来
2、把清洗提取出来的有效评论内容,按照热度高到低的顺序全部列举出来
3、需要把所有真实需求全部列举出来,哪怕只有一次提及,并且附带上评价 原文
4、同时做需求的可行性分析
5、最后通过表格的方式进行总结
AI大模型每家的产品都各具特点。经过对比测试,deepseek深度思考分析输出效果是最好,但是只能消化掉部分的内容。豆包可以消化掉所有内容,分析效果稍微差一些。
最后,附上部分需求分析结果: