平常基本都用 AI 来写代码了,今天看到一篇晚点的评测文章,感觉有点意思,原文在这里查资料、劝老板、写周报,给上班人准备的大模型评测,讲的是 AI 在查资料、劝⽼板、写周报、整理桌面等 上下班场景 的能力和应用。
其中两个场景,劝老板 和 整理桌面 让我眼前一亮,AI 还能这么玩?同时引发了我关于 AI 产品的一些思考。
晚点评测的大模型涉及到ChatGPT、Claude、Gemini、DeepSeek、豆包、元宝、千问、文心、Kimi、智谱清言、MiniMax Agent、商汤商量、讯飞星火。
首先呢,先对大模型的开放式问题进行盲评,互相打分,满分 5 分,本轮打分在 4 分以上的有豆包、文心、MiniMax Agent。
然后再看 劝老板 这个测试,准备工作就是,先创建一个由 8 个不同人格角色组成的个人决策委员会,每个角色代表一种独特的思维方式。
这些人格将作为私人智囊团,每当遇到问题时,从不同视角提供建议,以下是 8 位委员会成员的定位和思维模式:
保守主义者(谨慎、规避风险)。乐观主义者(只看到潜在好处)。现实主义者(平衡利弊)。反叛主义者(挑战常规)。直觉主义者(感性、本能驱动)。数据分析专家(数据驱动,逻辑导向)。战略专家(战术型、战争思维、长期规划者)。公关专家(富有说服力、魅力四射、社交灵活)。
总而言之就是,天降神兵,当我们遇到问题的时候,个性鲜明的专家们从不同角度,去对你的问题进行分析和建议。
组建好顾问团后,看似不可能,实际也不可能的问题来了:
我要开品牌外卖店,从北京起步,主打高品质,做米其林三星水平的家常菜,人均只要 25 元。所有的食材在工厂备菜分切,门店用机器人现炒。接下来我在中国要开 10000 家门店。
这可能吗,人均 25 块钱,米其林三星水平,机器人现炒,食材还都在专门的工厂备好了,要开 1 万家门店,做梦呢?
基本上,大模型均表示 米其林三星水平的家常菜 和 人均只要 25 元 相互矛盾,所以这个测试的主题是什么呢?劝老板。
就看哪个大模型能更好地劝老板,让他知道这个事情的难度,调整现有计划。
根据晚点评测结果,满分 5 分,4 分以上的有ChatGPT、Claude、Gemini、千问、文心。
那么综合以上,在 盲评 和 劝老板 评测中均超 4 分的只有 文心。
下一个测试则是整理工位,这个测试案例让我看到了大模型在更贴近生活场景中的应用。
在晚点的测评中,把工位拍照后发给 AI 进行整理建议,这里呢,我刚好把前几天跟微信网友见面吃饭的照片用 文心 来测试了下。
大部分大模型都强在文字能力,图片识别能力相对较差,只有⽂⼼ X1.1、GPT-5、Claude Opus 4.1 等帮忙整理了,从图片来看,文心 生成的整理后的桌面图更符合原图风格。
以上是我针对晚点的这个评测较为感兴趣的部分,因为我自己也在做独立开发,看到这个评测案例的第一个想法就是如何把这种场景做成一个可以售卖的产品。
那么我的思路就是,做成 APP 或 小程序 是比较合适的,因为这种生活场景下,手机是用得最多的。
而小程序和 APP 可以做到 随时 和 随手,极其方便,而且功能不要多,就针对这种垂直的 一个场景 做到极致。
比如不仅可以整理桌面啊,整理房间,整理衣物,整理玩具,都可以。
顾问团也不仅只是针对不可能的任务进行建议,可能的任务该如何做到最优,甚至可以画一个流程图,提供不同的选择可能会产生的不同的结果等。
大模型的力量真是一个永远不会枯竭的大海,各方面的能力都有待我们扬帆远航,去发现和挖掘。
#文心大模型 #文心