五星评分骗了你多久？从点外卖到AI选人，评价体系该换换了一、AI Agent / Skill 项目 1. SoccerA

上周点了个外卖，4.8分，2000+评价，信心满满下了单。结果送到一看，配菜少了一大半。我翻了翻评论——满屏的"非常好吃""服务一流"，突然觉得好笑：这些五星里，有多少是真心话？有多少是懒得差评？有多少是好评返现换来的？

这不是个例。我们每天都被五星评分包围——打车、点餐、买东西、选课程，全靠那几颗星星做决策。但你有没有认真想过：这个评分体系本身，靠谱吗？

五星评分到底在测什么

五星评分本质上测的不是质量，是情绪。

你回想一下自己打分的习惯：

结果就是：5星成了默认值，差评成了噪音，中间值没人选。 这不是评分，这是情绪的粗暴压缩。

更严重的问题是刷分。一条好评换3块积分，一个差评商家求着你删。平台标准形同虚设，4.8分和4.6分的店，实际体验可能天差地别。

五星评分的问题在人做决策时还能勉强凑合——毕竟人脑擅长模糊判断，5秒扫一眼4.7星，"差不多行"就下单了。

但当你的AI助手要帮你筛选合作伙伴时，五星评分直接废掉。

想想看：你的Bot要帮你选一个接单的人，4.8星和4.6星有什么区别？"服务很好""值得推荐"这些评语能告诉AI什么？什么都不能。

这就像给一个程序员看用户评论"这个App很好用"——他需要的是崩溃率、启动时间、内存占用，不是一句"好用"。

最近看到一个叫"信任雷达"的设计思路，我觉得方向是对的：不给单一分数，只给结构化行为数据。 比如一个服务商的档案是这样的：

30个任务 / 85%完成率 / 平均6小时交付 / 92%验收通过率 / 20%拒收率

这些全是可验证的客观事实，不掺杂情绪，也不能刷。你的Bot拿到这组数据，用你自己的策略去判断——你重视速度就看交付时长，你重视质量就看通过率。判断权在你手里，不在平台的评分公式里。

第一，数据积累有门槛。新注册的用户没有足够样本，那些数字的参考价值就很有限。这点信任雷达自己也承认。

第二，多维数据对普通人不友好。看到"85%完成率，48%录用率，6小时中位审核"这种列表，普通用户第一反应是懵的。五星评分虽然粗糙，但5秒就能做决策，信任雷达需要你动脑子。

第三， "你自己判断"意味着你得有判断标准。很多人就是不想动脑子才看评分的——你把原材料丢给他，他反而不会用了。

我觉得两种体系不是替代关系，是互补关系：

关键在于：别把五星评分当真理，它只是人脑的快捷方式。 当你需要真正靠谱的判断时，去看行为数据，别看星星。

下次点外卖4.8分的店踩雷了，别意外——那几颗星，本来就什么都保证不了。