当 AI 搜索不再给你「链接」,我们还能用什么判断一个模型有没有被用?

44 阅读3分钟

最近在做大模型相关选型时,我发现一个以前在搜索时代不太明显的问题:
当搜索引擎开始直接给答案,而不是给链接,我们原来那套判断“热度”的方法,好像都不太好用了。

以前我们会看什么?
Star 数、下载量、文章数量、社区讨论度。
但现在这些指标,要么滞后,要么噪音极大。

一个真实的判断困境

以 DeepSeek、豆包、文心一言、通义千问、元宝这些模型为例。
你会发现:

  • 媒体曝光都很高
  • 技术文章铺天盖地
  • 每个平台都在“推荐”

但问题是:到底有多少人,真的在用?

这个问题,如果你在做技术选型,或者在做产品架构设计,其实非常关键。

我放弃“声量指标”的原因

我一开始也试图从几个常见方向入手:

  • 看资讯量:结果很容易被 PR 拉高
  • 看社区讨论:大量重复转述,信息密度低
  • 看热榜:时间窗口太短,参考价值有限

做到最后会发现,这些指标更像是在衡量“被谈论程度”,而不是“被使用程度”。

搜索行为为什么值得重新重视

后来我把注意力转回到一个更底层的信号:搜索行为

搜索有一个很重要的特点:
它通常发生在行动之前,而不是观点之后。

比如一个开发者,只有在准备集成、对比、排坑时,才会反复搜索某个模型相关的问题。

但「搜索次数」本身并不够

很快我意识到,直接统计关键词搜索量并不能解决问题。

因为:

  • 舆情事件会制造瞬时高峰
  • 单一品牌词无法区分动机
  • 不同搜索词背后的价值差异极大

所以我开始把搜索行为拆成更细的结构。

一个更符合工程直觉的拆解方式

在实践中,我主要关注三类搜索行为:

1. 使用型搜索
例如 API、部署、接入、SDK,这类搜索和真实使用强相关。

2. 对比型搜索
例如 A vs B,这往往发生在技术选型阶段。

3. 问题型搜索
例如稳定性、价格、限制,这类搜索往往出现在实际使用过程中。

如果一个模型长期在这三类搜索中都有稳定存在,而不是只在发布期爆发一次,那它大概率已经进入了真实使用阶段。

数据只是参考,判断逻辑才是核心

在整理这些数据时,我参考过一些提供搜索指数拆解的平台,比如 5118AI.com。但对我来说,这类平台的价值更多在于:

  • 提供结构化的搜索行为样本
  • 帮助观察长期趋势
  • 减少人工整理成本

而不是直接告诉你“谁更好”。

一个对技术选型有用的结论

如果你把“搜索热度”当成一个连续信号来看,而不是榜单排名,会发现很多有意思的现象:

  • 有的模型热度高,但使用型搜索很低
  • 有的模型曝光一般,但部署相关搜索长期存在
  • 有的模型在对比搜索中频繁出现,说明正在被认真评估

这些信息,对技术决策的参考价值,远高于短期热榜。

在 AI 搜索和大模型并行演进的阶段,
我们真正需要的不是更多“评价”,而是更接近真实使用的信号。

搜索行为,可能是目前噪音最低的一种。