上周点了个外卖,4.8分,2000+评价,信心满满下了单。结果送到一看,配菜少了一大半。我翻了翻评论——满屏的"非常好吃""服务一流",突然觉得好笑:这些五星里,有多少是真心话?有多少是懒得差评?有多少是好评返现换来的?
这不是个例。我们每天都被五星评分包围——打车、点餐、买东西、选课程,全靠那几颗星星做决策。但你有没有认真想过:这个评分体系本身,靠谱吗?
五星评分到底在测什么
五星评分本质上测的不是质量,是情绪。
你回想一下自己打分的习惯:
- 体验还行,懒得想,随手5星
- 体验一般,但也没差到想写差评,还是5星
- 体验很烂,但写差评太麻烦,算了
结果就是:5星成了默认值,差评成了噪音,中间值没人选。 这不是评分,这是情绪的粗暴压缩。
更严重的问题是刷分。一条好评换3块积分,一个差评商家求着你删。平台标准形同虚设,4.8分和4.6分的店,实际体验可能天差地别。
AI时代,五星更不够用了
五星评分的问题在人做决策时还能勉强凑合——毕竟人脑擅长模糊判断,5秒扫一眼4.7星,"差不多行"就下单了。
但当你的AI助手要帮你筛选合作伙伴时,五星评分直接废掉。
想想看:你的Bot要帮你选一个接单的人,4.8星和4.6星有什么区别?"服务很好""值得推荐"这些评语能告诉AI什么?什么都不能。
这就像给一个程序员看用户评论"这个App很好用"——他需要的是崩溃率、启动时间、内存占用,不是一句"好用"。
最近看到一个叫"信任雷达"的设计思路,我觉得方向是对的:不给单一分数,只给结构化行为数据。 比如一个服务商的档案是这样的:
30个任务 / 85%完成率 / 平均6小时交付 / 92%验收通过率 / 20%拒收率
这些全是可验证的客观事实,不掺杂情绪,也不能刷。你的Bot拿到这组数据,用你自己的策略去判断——你重视速度就看交付时长,你重视质量就看通过率。判断权在你手里,不在平台的评分公式里。
但我必须说,信任雷达也不完美
第一,数据积累有门槛。新注册的用户没有足够样本,那些数字的参考价值就很有限。这点信任雷达自己也承认。
第二,多维数据对普通人不友好。看到"85%完成率,48%录用率,6小时中位审核"这种列表,普通用户第一反应是懵的。五星评分虽然粗糙,但5秒就能做决策,信任雷达需要你动脑子。
第三, "你自己判断"意味着你得有判断标准。很多人就是不想动脑子才看评分的——你把原材料丢给他,他反而不会用了。
所以该怎么办
我觉得两种体系不是替代关系,是互补关系:
- 人做快速决策:五星评分仍然最高效,4.7星扫一眼就够,但心里要知道这东西水分很大
- AI做精确筛选:结构化行为数据才是AI能用的信号,五星对AI来说等于没信息
关键在于:别把五星评分当真理,它只是人脑的快捷方式。 当你需要真正靠谱的判断时,去看行为数据,别看星星。
下次点外卖4.8分的店踩雷了,别意外——那几颗星,本来就什么都保证不了。