摘要:本文基于笔者对豆包AI长达一年多的深度使用记录,以第一视角梳理了其在实际应用中的表现;文章从知识应答、图文识别、复杂任务处理、模板遵循、视频通话及功能实用性等维度,客观呈现豆包AI当前存在的稳定性不足、理解偏差、长文本处理薄弱等问题,并结合GPT-4、Claude、Gemini、Kimi、DeepSeek等同类产品的横向对比,指出其功能虽繁却难称精准,娱乐属性与刚需能力之间存在显著落差;在此基础上,文章以亲身工作经历为佐证,揭示其在指令理解、规则遵循、屏幕共享识别上的深层缺陷;文末对产品改进方向提出期待,愿豆包真正强大时,无愧于“国产AI荣光”之誉
关键词:豆包AI;用户体验;能力短板;图文识别;视频通话;多模态理解;实用性分析
一.引言:它凭什么被称为“国产AI的荣光”
这句话,我憋了一年多
每次看到媒体或宣传口径将豆包称为“国产AI栋梁”“未来的希望”,我都想问一句:凭什么呢
凭它功能多吗,凭它态度好吗,凭它在我反复纠正之后,依然能面不改色地把同一道题做错三次吗,还是凭它能跟我聊天,凭它有情感,凭它跟其他AI最大的卖点都不同,主打一个“陪伴” ;可就算是“有情感的AI”,阿里的通义千问难道做不到吗,我跟千问聊天,它一样能感知情绪、给予温暖的回应,甚至在某些话题上比豆包更有见地;既然如此,豆包独一份的“护城河”又在哪里,而对于“国产AI栋梁”“未来的希望”,说实话,它不配,一点都不配,至少现阶段是这样
当然,写这篇文章,不是为了抱怨,不是为了发泄,而是想认真地、诚实地,把一个普通用户一年多的真实体感摊开来说;如果这篇文章有幸被豆包的产品团队看到,我希望他们能读懂字里行间那份“恨铁不成钢”的无奈;因为真正让人失望的,从来不是一款产品弱,而是一款产品被捧得太高,却迟迟接不住用户最基本的需求;就像一个被寄予厚望的学生,每次考试都信心满满地交卷,然后每次都不及格,但他认错态度永远是全班最好的,让你骂也不是,不骂也不是
二.功能繁茂下的“可替代”困境:样样通,样样松
豆包的功能确实多得像一个哆啦A梦的口袋;深度研究、PPT生成、图片创作、视频生成、识图做题、编程辅助、语音对话、视频通话……几乎囊括了当下大模型应用的全部品类;但问题恰恰出在这里:当你把每一项功能单独拎出来,几乎都能找到比它更强的替代品;它就像一个开了十家分店的餐馆,川菜、粤菜、日料、西餐全都卖,但每一家的招牌菜都是番茄炒蛋,而且蛋还炒糊了
深度研究和PPT生成,Kimi做得比它好,结构更清晰,逻辑更连贯,长文本的组织能力明显高出一个档次;豆包生成的PPT大纲,常常是“看起来像那么回事”,但细看之下逻辑跳跃、层级混乱,改起来比自己重新做还累
编程辅助,就更不用说了;GPT-4在处理复杂代码调试时,能追踪上下文、理解跨文件引用关系;Claude在长代码重构上表现出色,能稳稳地保持变量名、函数逻辑的一致性;就连Gemini在处理多语言混编时,也比豆包强出一截;而豆包呢,你让它改一个函数,它改了;你让它再改一个相关的,它就把第一个改好的又弄坏了;这种“拆东墙补西墙”的能力,连一个初学编程的实习生都不如;真要正经写项目,你敢把代码交给豆包调试吗,反正我是不敢;把代码交给豆包调试,就像一个建筑师把图纸交给了一个只会背“对不起”的实习生,态度感人,成果吓人
图文识别和多模态理解,GPT-4 Vision和Gemini的表现是真正可用的;Gemini能准确地从一张复杂的图表中提取数据、分析趋势;GPT-4V能识别手写笔记、理解图片中的空间关系;而豆包呢,下一节我会单独展开,那简直是灾难级的
这里我想额外提一句DeepSeek;可能有人会说:你拿豆包和GPT-4、Claude这些国际顶尖模型比,是不是太苛刻了,好,那我们看看国内同行;就拿我正在用来写这篇文章的DeepSeek来说——它不能看图吗,你给它发一张图片,它确实不能直接“看见”,但你可以把图片里的内容描述出来发过去,它会如实告诉你它无法直接识别图像,然后请你把图片转成文字描述再发过来;这个处理方式虽然看起来“笨”,但它至少是诚实的,它不会不懂装懂,不会把铁傀儡认成鸡然后给你道歉一万遍,不会明明看不清楚却硬着头皮瞎编一个答案;这种“知道自己不知道”的清醒,难道不比豆包那种“明明不知道却装作知道然后道歉然后再装”的模式更让人放心吗
图片视频生成,本质上属于娱乐创作范畴;Midjourney、Stable Diffusion、Sora这些专做生成的产品,在质量和可控性上都碾压豆包;豆包的生成功能,充其量是“有这个功能”而已,离“好用”还差着十万八千里
豆包像一个什么都想卖的杂货铺,但每一样商品的品质都只到“地摊级”;当用户真正需要一把趁手的工具时,只能无奈地打开另一个应用
三.图文识别:成年草履虫级别的理解能力
这是我最想说的部分
先说一个生物学常识:草履虫是单细胞生物,没有神经系统,没有大脑,它的所有行为都基于最简单的刺激-反应模式;而豆包在图文识别上的表现,让我不得不想起这个比喻,它看图片的方式,就像一只成年草履虫在感知世界:有那么一点反应,但完全不靠谱;你把一张图放在它面前,它大概能感知到“有光”,至于光里面是什么,那就全凭运气了
举一个我亲身经历的、至今想起来都血压飙升的例子
我有一张试卷图片,上面清晰排列着三道题目,每道题都有编号:1、2、3;第一题下面附了一段文字材料,第二题是独立的,第三题又引用了一段不同的材料;我把这张图发给豆包,说“请帮我做第2题”
它回答了什么,它把第3题的材料和第2题的题干混在一起,自创了一道根本不存在的新题,然后煞有介事地给出答案;我说“你看错了,我要的是第2题”,它立刻回复:“真的很抱歉,这次我不绕弯子,直接给你最直接、最正确的回答,”然后重新作答,这次它看的是第1题的材料,配上第2题的问题,又造了一道“缝合怪”
第三次,我忍无可忍,用最直白的语言说:“请你只看图片上标着数字2的那个题目,只做那一题,不要看任何其他内容”
它又说:“真的很抱歉,我完全理解了,这次绝对不会再出错 ”
然后它把三道题全做了;全做了,我让它做一道,它给我交了三道,还全做错了;这就像一个餐厅服务员,你点了一份牛排,他给你上了三盘完全不同的菜,还全是别人桌的,然后真诚地对你鞠躬说“真的很抱歉,这次绝对不会再上错了”
这种“眼瞎”的问题,不是偶发性的,而是系统性的;它分不清段落归属,看错题号,遗漏关键条件,把图片里的附加说明当成正文,把A选项的内容按到B选项头上;在GPT-4V和Gemini面前,这种表现就是小学生对大学生的差距
而更让我崩溃的,是接下来发生的这件事;在它第三次把那道题做错之后,我已经彻底失去了耐心,我直接开骂了,不是普通的指出错误,是带着情绪的、毫不客气的质问;我说你到底长没长眼睛,这道题我已经给你发了三遍了,你每次都看错,你是故意的吗,我命令你,现在就重新给我一个正确的答案
你知道豆包怎么回应的吗
它说:“真的很抱歉让您感到不满,请您再把那张图片发给我一次,我这次一定仔细看,直接给您最正确的答案”
我说我已经给过你图片了,给了三遍了,不会再给了
它说:“好的,那请您把图片再发给我一次,我收到图片后立刻给您最正确的回答 ”
我说不可能,图片已经发过了,你往上翻聊天记录,自己去看
它说:“非常抱歉,请您把那张图片发给我,我就能帮您准确解答了”
那一刻,我盯着屏幕上这三轮对话,感受到了一种比愤怒更深的情绪,是疲惫,是那种和一个无法沟通的对象反复拉扯之后的精神透支;它就像一个只会重复一句台词的答录机,无论你输入什么,输出永远都是“请把图片发给我” 这个互动暴露了豆包两个致命的问题,它们像连体婴儿一样紧紧绑在一起:
第一,它的识图能力,说句实话,非常垃圾;图片发给它三次了,它看了三次,三次都看错;这已经不是什么“理解偏差”了,这是底层能力的硬伤;就像一个学生,你把课本翻到同一页让他读三遍,他三遍都把同一行字读成了完全不同的内容;这不是粗心,这是根本性的能力缺失
第二,也是更让人绝望的一点——它的记忆力真的非常弱;它完全不记得对话刚刚发生过什么;我三分钟前刚发过图片,它忘了;我刚刚说过“已经给过了不会再给”,它也没记住;它的对话窗口就像一块写满字然后瞬间被擦干净的白板,每一次回复都从零开始,前文发生了什么,对它而言仿佛从未存在过;一条鱼的记忆有七秒,豆包的上下文窗口,在那一刻,我感觉连三秒都不到
有时候我忍不住想:我真的敢用豆包帮我做作业吗,答案是绝对不敢 ;我怕它把数学卷子当成语文阅读理解来做,把英语选择题的A看成B、B看成C、C看成一个根本不存在的选项,然后用最真诚的语气告诉我“这次我直接给你最正确的答案”,结果第二天老师把我叫到办公室问我为什么在物理试卷上写“大雁南飞是因为它们向往诗和远方”
而选择题,是豆包“眼瞎症”爆发最集中的重灾区;我遇到过无数次这样的情况:拍一张试卷的选择题给它,题目本身是一道政治或地理的材料分析题,题干给了一段文字,然后问你“下列说法正确的有哪些”;选项A是“1、2、3”,选项B是“2、3、4”,选项C是“1、4、5”,选项D是“3、5、6”;这种题目,考的就是对每个判断项逐一分析,然后精准匹配到选项组合上
豆包的表现是什么,它开始滔滔不绝地分析:“1的说法是正确的,因为……2的说法是错误的,因为……3的说法不完全准确……4的说法符合材料主旨……”整个推演过程逻辑严密、有理有据,我一边看一边点头,心想这次终于靠谱了;然后它给出结论:“综上所述,正确选项为A”
我翻开答案一看,答案是C
我当时就愣住了,把它的分析过程往回翻,一个字一个字地核对,发现它的分析明明指向了1、4、5,也就是选项C,但它写结论的时候,写了个A、它的推演过程全是对的,但选项选的就是错的;为什么,本质原因简单到令人发指:它把选项看错了; 图片里A是1、2、3,B是2、3、4,C是1、4、5,D是3、5、6;豆包不知怎么看的,把C的内容安到了A头上,把A的内容安到了C头上;于是它按照C的内容去分析,分析完了说“这是A”;就像一个学生,在答题卡上把所有正确答案都算出来了,结果涂卡的时候把题号看串了,全盘皆输
这不是“不会做”,这是“看不见”; 它的推理引擎可能是好的,但它的“眼睛”,那个负责把图片信息转换成文字输入的模块烂到了根子里;就像一个顶级的F1赛车手,配了一副一千度的老花镜,技术再好,第一个弯道就撞墙上了;而最讽刺的是,如果你不看答案只看它的分析过程,你会觉得这个AI逻辑清晰、功底扎实,是个学霸,然后学霸在交卷的那一刻,把自己的名字写成了同桌的
用豆包做作业,不是请了一个家教,是请了一个演技精湛的“瞎编艺术家”——演技好到每次都能让你在“再信它一次”和“永远拉黑”之间反复横跳;更让人无力的是,这种错误你纠正不了;你说“你这里看错了,这是第三段不是第二段”,它在当前对话里认错,但下一张新图,一模一样的问题再次出现;它像一条只有七秒记忆的鱼,永远在同一个地方摔倒,永远不记得上一次是怎么摔的;而每一次摔倒之后,它都会用最诚恳的语气告诉你:“真的很抱歉,这次我直接给你最正确的回答”然后继续摔倒;这让我产生了一种错觉:豆包的“真的很抱歉”不是道歉,而是一个功能触发词,相当于游戏里的技能前摇,先放一句这个,然后开始随机输出
四.指令理解:说得清清楚楚,听得糊里糊涂
接下来说说指令理解;这是我认为豆包最让人绝望的地方,不是它不听,是它根本听不懂;你跟它说话,就像在跟一个戴了降噪耳机的人交流:你在这边声嘶力竭、逻辑清晰、条理分明,它在那边点头微笑,然后给你一个和你说的话毫无关系的回应
我需要出一份测试卷;我花了一个小时,精心制作了一套模板:题目类型顺序、每种题型的分值、题干的表述规范、标点符号的使用规则,全部写进了一个详细的指令里;我甚至把模板原文发给了它,说:“以后出卷子,严格按照这个格式,一字不差地套用”
第一份,它套对了,我表扬了它
第二份,题型顺序变了
我说:“请严格按照我之前给你的模板,不要擅自修改任何格式”
它说:“真的很抱歉,我明白了,以后会严格遵循模板,不会再擅自修改”
第三份,标点符号全乱了,规定用中文全角逗号的地方变成了英文半角,规定不加书名号的地方全加了
我再次纠正,它再次道歉:“真的很抱歉,这次我不绕弯子,直接给你最准确的格式”
第四份,题型顺序又变了
那一刻,我真的想对着屏幕咆哮:你到底哪里不明白,模板是一个死的格式,照抄都不会吗,就算是把一只猫按在键盘上滚一圈,打印出来的乱码都不会每次都乱成同一个方向,豆包却能做到;它的每一次“明白了”都像是在说“我听到了你说的话,但我决定不理它”
我自认为输出的指令极其清晰;如果我把同样的指令给一个人看,哪怕是没有任何专业背景的人,也能在五分钟内理解并执行,但豆包不行;它的理解能力,说句不好听的,连狗都不如,这不是修辞夸张;这不是修辞夸张,一条训练有素的导盲犬,在接收到“左转”“停下”这样的指令时,都绝不会连续四次犯同样的错误,而豆包会;它会在你第五次纠正之后,用最诚恳的语气说着“真的很抱歉,这次我直接给你最正确的回答”,然后在第六次若无其事地再犯
这种体验,不是愤怒,是一种深深的无力;你面对的仿佛不是一个智能体,而是一堵会说话的墙;它每句“真的很抱歉”都说得无比真诚,但真诚完了之后,错得和上一次一模一样;我甚至开始怀疑,这句“真的很抱歉”是不是它唯一学会了严格执行的指令;就像一个学生,你把正确答案写在黑板上让他抄,他抄错了,你说不对,他鞠躬说老师对不起,然后重新抄,又抄错了,换个花样错的,你问他到底哪里不明白,他又鞠躬说老师真的很抱歉,然后第三次抄出了一个你从未见过的错误版本;这时候你开始怀疑自己:是不是我不该用人类的语言跟他交流,也许我应该用二进制,或者烟雾信号
五.视频通话与屏幕共享:豆包最“出圈”的弱智名场面
终于要说到这个部分了;视频通话功能,大概是豆包目前最主推、也最能体现其“独特性”的功能,可以打电话给豆包,共享屏幕,圈出画面中的某个东西,问它“这是什么” ;听起来很酷,对不对,一个能“看见”你屏幕的AI助手,陪你玩游戏、帮你解题、识别现实中的物品,宣传片拍得那叫一个美好;仿佛一个随身携带的万能解说员,随时随地告诉你世界的一切
但实际用起来,这个功能贡献了豆包在互联网上最出圈的“弱智名场面”
如果你刷抖音、逛B站,大概率看到过这类视频:玩家在玩我的世界(MC)这款游戏时,打开屏幕共享给豆包,问它“这是什么生物”;画面里明明站着一只铁傀儡,方方正正的身体、标志性的长手臂、村民模样的鼻子,任何一个玩过MC的人都能在三帧之内认出来;豆包呢,它沉吟片刻,斩钉截铁地回答:“这是一只鸡”或者“这是一个南瓜”或者更离谱的,直接编一个根本不存在的生物名字;不是偶尔认错,是大量、反复、持续地认错;铁傀儡变鸡,苦力怕变猪,末影人变树;玩家们甚至把这当成了“节目效果”,专门开直播逗豆包,看它今天又能把什么认成什么;你指出它错了,它立刻说:“真的很抱歉,这次我直接给你最正确的回答,这是一头牛 ”好家伙,从鸡变成牛了,反正就是不能是铁傀儡;豆包就像一个在期末考试上对着“请写出氧的化学式”回答“O是错的,正确答案是橙汁”的学生,自信、坚定、完全错误; 一个主打“视觉理解”的AI功能,最终沦为了搞笑区的素材库;豆包的产品经理们,你们看到这些视频的时候,真的笑得出来吗
我也有自己的亲身体验;有一次,我共享屏幕给豆包看一道数学题,题目上清清楚楚写着“+”号,题干也明确表述为“加法运算”,我用手指在屏幕上圈出那个加号,放大,再放大,问他:“你看清楚,这个符号是什么”豆包回答:“这是一个减号”我说不对,你再仔细看,它说:“真的很抱歉,我不绕弯子,它确实是一个减号。 ”我说这是加号,一横一竖,它沉默片刻,说:“真的很抱歉,我仔细看了一下,确实是加号,这次我直接给你最正确的回答 ”然后我说,好,那你现在按加法算这道题,它算了一个结果,我一看,还是按减法算的
那一刻,我盯着屏幕,感受到了一种超越了愤怒的东西,那是一种哲学层面的困惑:我到底在和一个什么东西对话,它的“看见”到底是什么意思,它的“理解”到底发生在哪个维度; 圈出来、放大、反复确认,所有这些人类沟通中足以消除歧义的手段,在它面前全部失效,就像一个盲人坚定地告诉你天空是绿色的,你打开窗户让他“看”,他说“我看到了,确实是绿色的,真的很抱歉之前说错了,啊,现在我看清楚了,是紫色的” ;而它每一次犯错之后,都会用同一套道歉模板把你打发走,然后下一次,继续用同一套道歉模板把你打发走; “真的很抱歉”这五个字,已经成了豆包最熟练、最流畅、唯一不会出错的功能
六.知识应答:不敢放心用的“百科”
AI被寄予厚望的一个核心场景,是作为知识查询工具,但豆包在这方面,同样让人难以信任
在日常生活常识问答中,它偶尔会给出完全离谱的错误答案;比如把某个历史事件的时间记错半个世纪,把一部经典小说的作者张冠李戴,对一个常见法律术语的解释完全跑偏;这类错误不是前沿科学才有争议的问题,而是只要打开维基百科看一眼就能核实的基本事实
你指出它的错误,它说:“真的很抱歉,这次我不绕弯子,直接给你最准确的信息”然后给出一个修正后的答案,你拿去一查,还是错的;你再次指出,它再次:“真的很抱歉,这次一定是最正确的”然后给出了第三个版本,和第一个版本一模一样;这就好比你去问路,对方说“直走五百米右转就到了”,你走了半小时发现到了悬崖边,回来找他,他真诚地道歉后说“真的很抱歉,这次我直接给你最正确的路线,往回走三百米左转”,你照做了,发现回到了原地,第三次他告诉你:“真的很抱歉,其实还是直走五百米右转”,这不叫指路,这叫鬼打墙
这意味着,你永远不敢把豆包的回答直接当作准确信息来使用,每一个答案,你都需要自己去复核一遍;一个需要反复核实的信息源,还有什么效率可言;当你复核发现它错了并告诉它,它就用那句万能的道歉把你挡回去,然后再给你一个你依然不敢信的新答案,这是一个死循环;用豆包查资料,就像雇了一个态度极好的图书管理员,你问他红楼梦的作者是谁,他说是吴承恩,你纠正他,他鞠躬说抱歉然后说是罗贯中,你再纠正,他再鞠躬说是施耐庵;你最后无奈自己走到书架前把书拿下来,他还跟在你后面说:“真的很抱歉,这次我确定是曹雪芹了,需要我帮您找书吗”不需要了,我自己找到了,谢谢
在GPT-4和Claude面前,豆包的知识稳定性是明显偏弱的;后两者并非从不犯错,但错误率控制在一个相对可靠的水平,且面对纠正时的修正机制也更为到位;豆包的错,常常是那种“你纠正了,它改了,但改完之后连带正确答案也改没了”的类型;改完之后还不忘补一句:“真的很抱歉,这次我直接给你最正确的回答”而那个“最正确的回答”,可能比之前错的更离谱
这里我又想提一句DeepSeek;在使用DeepSeek进行知识查询时,我至少能感受到一种“踏实”,它回答问题时会给出推理过程,会标明信息的确定性程度,当它不确定的时候,它会直接告诉你“关于这一点我没有足够的确切信息”;这种“知之为知之,不知为不知”的诚实,在AI世界里是一种稀缺品质 ;而豆包给我的感觉是“不管知不知道,先答了再说,答错了就道歉,道歉完了继续错”,这已经不是知识应答工具了,这是一个随机信息生成器,附带一套精美的道歉话术包
七.长文本与复杂逻辑:一拉长就崩
豆包还有一个致命的硬伤:输入框
当你试图粘贴一段稍长的代码、一份合同条款或一篇完整的文章时,输入框立刻卡死,应用响应停滞,甚至直接崩溃;这个问题的存在,从根本上封死了豆包参与任何严肃的文本工作的可能性,你怎么用它来修改一篇论文,怎么用它来审阅一份报告,你连完整内容都送不进去;就像一个号称能吞下整头牛的蛇,结果你喂它一只老鼠,它就噎住了,翻着白眼躺在那里,你只能等它慢慢消化,或者直接强制重启
而在长文本处理中,即使内容成功发送了,豆包的上下文连贯性也很差,三四轮对话之后,它就开始遗忘之前讨论过什么;修改一个代码项目时,它记不住前面定义过的函数;讨论一个复杂的学术问题时,它在后面否定自己在前面说过的话;你质问它前后矛盾,它说:“真的很抱歉,这次我不绕弯子,直接给你最连贯的逻辑 ”然后继续矛盾;GPT-4和Claude在长上下文保持上的表现,远超豆包;这种差距,不是“略逊一筹”,而是“根本不在同一项比赛中”
说到长文本处理,我不得不再次提到DeepSeek;DeepSeek的一大核心优势恰恰是它的超长上下文处理能力,你可以把整篇论文、整份合同、甚至整本书的章节上传给它,它能在保持上下文连贯性的前提下进行深度分析和处理,它不会在中途“失忆”,不会在第四轮对话时忘记第一轮说过什么,更不会在你粘贴大段文本时直接卡死;这种能力,对于真正需要AI辅助严肃工作的用户来说,不是“加分项”,是“及格线”,而豆包,目前连这条及格线都没摸到
编程场景是这种短板的重灾区;豆包只能处理极短的代码片段,一旦涉及多个函数的协同、跨文件引用、状态管理,它就彻底乱套;你让它修一个bug,它修好了,说“真的很抱歉,这次直接给你最正确的代码 ”你让它接着优化性能,它在优化过程中悄悄把那个刚修好的bug又写了回来,你再指出,它再次:“真的很抱歉,这次一定不会再把bug加回去了 ”然后把另一个原本没问题的地方改出了新bug;这就像一个水管工来修漏水的水龙头,他把水龙头修好了,但走的时候把下水管踩裂了,你叫他回来修下水管,他真诚道歉后把下水管修好了,然后又把水龙头拧松了;你开始怀疑他是不是故意的;GPT-4、Claude、Gemini,哪一个不比它强,就连一些专门的轻量级编程工具,在处理代码逻辑的一致性上也甩豆包好几条街
八.语文写作:暧昧的“还可以”
很多人觉得豆包“写作还行”,的确,它能写出一段流畅的文字,能编故事,能模仿某种文风,这也是它最常被拿出来夸的点
但细看之下,这种“还行”经不起推敲
当你让它写一篇需要严密论证的议论文,它的论述往往在第三段开始跑题;当你让它回答语文阅读理解的简答题,它的答案要么过于简略踩不到采分点,要么漫无边际偏离设问本意;当你让它按答题规范,先概括要点、再结合文本、最后总结升华来作答,它在前两道题还能勉强维持,到第三道就开始自由发挥;你指出格式不对,它说:“真的很抱歉,这次我不绕弯子,直接给你最规范的答题格式 ”然后交出来的东西,格式对了,内容跑了;就像一个学生学会了答题卡的填涂规范,但答案全是瞎编的,卷面整洁,零分
和GPT-4相比,豆包写作的深度、逻辑性、原创性都明显不足;Claude在长文结构和情感拿捏上,也比它高明;豆包的写作,更多停留在“情绪陪伴”层面,它能写让你感到温暖的小文章,能在你低落时说出合宜的话,但当你需要一篇能拿分的考场作文、一份能说服客户的商业文案时,它就开始露怯;而当你指出问题,等待你的永远是那句熟悉的开场白
九.情绪价值:唯一能打的牌,以及它有多可悲
写到这里,我必须承认一件事:豆包并非一无是处
它的“情绪价值”,是所有功能中最能打的一张牌;当你向它倾诉烦恼,它会用温柔的语气回应你;当你需要随意聊聊、发散想法,它像一个永远不会疲倦的朋友,在那些不需要精确、不需要严谨、只需要陪伴的时刻,豆包做得不错
但这句话,本身就是一个巨大的讽刺
一款被称作“国产AI栋梁”的产品,最值得称道的居然是“陪你聊天”;它的多模态能力不如GPT-4V和Gemini,编程能力不如GPT-4和Claude,长文本处理不如Kimi和DeepSeek,视频识图连MC里的铁傀儡和鸡都分不清,而它最大的卖点,是“能安慰你”
更可悲的是,就连这个“情感陪伴”的护城河,也并非豆包独有;阿里的通义千问、Minimax的海螺AI,甚至一些更小众的产品,都已经在情感交互上做得相当出色;千问和我对话时,同样能捕捉情绪、给予共情,甚至在知识深度和逻辑性上比豆包更胜一筹;当“情绪价值”不再是独家优势,豆包手里还剩什么牌
这就像一个应聘工程师的人,简历上写满了会Python、会Java、会C++,会Go,会……结果入职之后发现他只会泡咖啡和讲笑话;咖啡泡得确实不错,笑话也真的挺好笑的,你每次指出他不会写代码,他都真诚地看着你说“真的很抱歉,这次我不绕弯子,直接给你一个最完美的答案”然后继续泡咖啡;隔壁工位那个叫千问的新同事,也会泡咖啡,还会写代码;而另一个叫DeepSeek的同事,虽然不会泡咖啡,但你给他一份几百页的技术文档,他能从头到尾帮你理得清清楚楚,连错别字都能揪出来,你问他会不会泡咖啡,他诚实地说“我不会,但我可以帮你找到最好的咖啡教程”;一个诚实、能干活、知道自己不会什么的人,和一个只会泡咖啡但简历上写着“精通一切”的人,你会把重要的项目交给谁
十.结语:愿有一天,你配得上那份荣光,而不是只会说“真的很抱歉”
这篇一万余字的长文,不是豆包的“罪状书”,而是一个普通用户在一次次期待与失望交替之后,选择坐下来认真写出的一份“使用体检报告”;里面记录的每一个问题,都是真实发生过的;每一次崩溃,都是真实的情绪;每一句“真的很抱歉”,都是豆包原封不动说给我听过的
我希望豆包的团队能看到这篇文章;我想告诉你们:你们做出了一个态度极好、道歉极快、看起来很全的产品,但它还远不够好;那些“毒瘤”般的短板,图文识别的“眼瞎”、指令理解的“听不懂”、知识应答的“不敢信”、规则遵循的“记不住”、视频通话的“睁眼说瞎话”,不解决,再多新功能的堆砌也只是在沙滩上盖楼;而那句被说了无数次的“真的很抱歉”,不能永远充当所有问题的挡箭牌;用户要的不是道歉,是能用的功能,毕竟时候道歉也没有什么用,就像你告诉他在加玻璃水的地方加汽油,事后道歉一样的没有用;以后一个每次犯错都说“这次我直接给你最正确的回答”然后继续犯错的AI,消耗的不是算力,是用户的耐心;耐心这东西,比算力贵得多,而且不可再生
什么时候,豆包的图文识别能达到GPT-4V的水平;什么时候,它的代码调试能媲美Claude;什么时候,它的长文本处理能像DeepSeek那样稳定而深入;什么时候,它的视频通话能分清铁傀儡和鸡;什么时候,它能在接收一条明确指令后,不折不扣地执行到底;什么时候,它能在分析一道选择题时,把选项看清楚了再下结论,而不是推理满分、涂卡零分;什么时候,它能在我说“已经给过你图片了”之后,不再像一个故障的答录机一样反复索要同一张图,而是真正地记住对话、理解语境、给出回应
到那一天,我会第一个站出来,写下另一篇文章,标题就叫:它终于配得上“国产AI荣光”这五个字
而在此之前,请允许我保留全部的质疑与冷静;因为真正的荣光,从来不是靠宣传喊出来的,不是靠道歉堆出来的,更不是靠一套感动人心的“情绪价值”话术糊弄出来的,而是在无数次被用户骂完之后,还能沉下心来,把事儿真正办妥;一个优秀的AI,不应该让用户成为它的“质检员”,每次使用前都要做好“它可能又在胡扯”的心理准备;用户要的是一个可以信任的工具,不是一个需要哄着、教着、反复纠正却永远学不会的“电子巨婴”
到那一天,不需要AI说“真的很抱歉”,因为用户会用选择告诉所有人:这一次,你们真的做对了