豆包AI周年使用报告:当“全能”尚未能及——一个用户的冷静审视与期待

32 阅读31分钟

摘要:本文基于笔者对豆包AI长达一年多的深度使用记录,以第一视角梳理了其在实际应用中的表现。文章从知识应答、图文识别、复杂任务处理、模板遵循、视频通话及功能实用性等维度,客观呈现豆包AI当前存在的稳定性不足、理解偏差、长文本处理薄弱等问题,并结合GPT-4、Claude、Gemini、Kimi、DeepSeek等同类产品的横向对比,指出其功能虽繁却难称精准,娱乐属性与刚需能力之间存在显著落差。在此基础上,文章以亲身工作经历为佐证,揭示其在指令理解、规则遵循、屏幕共享识别上的深层缺陷。文末对产品改进方向提出期待,愿豆包真正强大时,无愧于“国产AI荣光”之誉。

关键词:豆包AI;用户体验;能力短板;图文识别;视频通话;多模态理解;实用性分析


一、引言:它凭什么被称为“国产AI的荣光”?

这句话,我憋了一年多。

每次看到媒体或宣传口径将豆包称为“国产AI栋梁”“未来的希望”,我都想问一句:凭什么呢?

凭它功能多吗?凭它态度好吗?凭它在我反复纠正之后,依然能面不改色地把同一道题做错三次吗?还是凭它能跟我聊天?凭它有情感?凭它跟其他AI最大的卖点都不同——主打一个“陪伴”? 可就算是“有情感的AI”,阿里的通义千问难道做不到吗?我跟千问聊天,它一样能感知情绪、给予温暖的回应,甚至在某些话题上比豆包更有见地。既然如此,豆包独一份的“护城河”又在哪里?

写这篇文章,不是为了抱怨,不是为了发泄,而是想认真地、诚实地,把一个普通用户一年多的真实体感摊开来说。 如果这篇文章有幸被豆包的产品团队看到,我希望他们能读懂字里行间那份“恨铁不成钢”的无奈。 因为真正让人失望的,从来不是一款产品弱,而是一款产品被捧得太高,却迟迟接不住用户最基本的需求。就像一个被寄予厚望的学生,每次考试都信心满满地交卷,然后每次都不及格——但他认错态度永远是全班最好的,让你骂也不是,不骂也不是。


二、功能繁茂下的“可替代”困境:样样通,样样松

豆包的功能确实多得像一个哆啦A梦的口袋。深度研究、PPT生成、图片创作、视频生成、识图做题、编程辅助、语音对话、视频通话……几乎囊括了当下大模型应用的全部品类。但问题恰恰出在这里:当你把每一项功能单独拎出来,几乎都能找到比它更强的替代品。它就像一个开了十家分店的餐馆,川菜、粤菜、日料、西餐全都卖,但每一家的招牌菜都是番茄炒蛋,而且蛋还炒糊了。

深度研究和PPT生成,Kimi做得比它好——结构更清晰,逻辑更连贯,长文本的组织能力明显高出一个档次。豆包生成的PPT大纲,常常是“看起来像那么回事”,但细看之下逻辑跳跃、层级混乱,改起来比自己重新做还累。

编程辅助,就更不用说了。GPT-4在处理复杂代码调试时,能追踪上下文、理解跨文件引用关系;Claude在长代码重构上表现出色,能稳稳地保持变量名、函数逻辑的一致性;就连Gemini在处理多语言混编时,也比豆包强出一截。 而豆包呢?你让它改一个函数,它改了;你让它再改一个相关的,它就把第一个改好的又弄坏了。这种“拆东墙补西墙”的能力,连一个初学编程的实习生都不如。真要正经写项目,你敢把代码交给豆包调试吗?反正我是不敢。把代码交给豆包调试,就像一个建筑师把图纸交给了一个只会背“对不起”的实习生——态度感人,成果吓人。

图文识别和多模态理解GPT-4 Vision和Gemini的表现是真正可用的。 Gemini能准确地从一张复杂的图表中提取数据、分析趋势;GPT-4V能识别手写笔记、理解图片中的空间关系。而豆包呢?下一节我会单独展开——那简直是灾难级的。

这里我想额外提一句DeepSeek。可能有人会说:你拿豆包和GPT-4、Claude这些国际顶尖模型比,是不是太苛刻了?好,那我们看看国内同行。就拿我正在用来写这篇文章的DeepSeek来说——它不能看图吗?你给它发一张图片,它确实不能直接“看见”,但你可以把图片发给它,它会如实告诉你它无法直接识别图像,然后请你把图片转成文字描述再发过来。这个处理方式虽然看起来“笨”,但它至少是诚实的。它不会不懂装懂,不会把铁傀儡认成鸡然后给你道歉一万遍,不会明明看不清楚却硬着头皮瞎编一个答案。 这种“知道自己不知道”的清醒,难道不比豆包那种“明明不知道却装作知道然后道歉然后再装”的模式更让人放心吗?

图片视频生成,本质上属于娱乐创作范畴。Midjourney、Stable Diffusion、Sora这些专做生成的产品,在质量和可控性上都碾压豆包。豆包的生成功能,充其量是“有这个功能”而已,离“好用”还差着十万八千里。

豆包像一个什么都想卖的杂货铺,但每一样商品的品质都只到“地摊级”。当用户真正需要一把趁手的工具时,只能无奈地打开另一个应用。


三、图文识别:成年草履虫级别的理解能力

这是我最想说的部分。

先说一个生物学常识:草履虫是单细胞生物,没有神经系统,没有大脑,它的所有行为都基于最简单的刺激-反应模式。而豆包在图文识别上的表现,让我不得不想起这个比喻——它看图片的方式,就像一只成年草履虫在感知世界:有那么一点反应,但完全不靠谱。你把一张图放在它面前,它大概能感知到“有光”,至于光里面是什么,那就全凭运气了。

举一个我亲身经历的、至今想起来都血压飙升的例子。

我有一张试卷图片,上面清晰排列着三道题目,每道题都有编号:1、2、3。第一题下面附了一段文字材料,第二题是独立的,第三题又引用了一段不同的材料。我把这张图发给豆包,说“请帮我做第2题”。

它回答了什么?它把第3题的材料和第2题的题干混在一起,自创了一道根本不存在的新题,然后煞有介事地给出答案。我说“你看错了,我要的是第2题”。它立刻回复:“真的很抱歉,这次我不绕弯子,直接给你最直接、最正确的回答。 ”然后重新作答——这次它看的是第1题的材料,配上第2题的问题,又造了一道“缝合怪”。

第三次,我忍无可忍,用最直白的语言说:“请你只看图片上标着数字2的那个题目,只做那一题,不要看任何其他内容。”

它又说:“真的很抱歉,我完全理解了,这次绝对不会再出错。

然后它把三道题全做了。全做了!我让它做一道,它给我交了三道,还全做错了。这就像一个餐厅服务员,你点了一份牛排,他给你上了三盘完全不同的菜,还全是别人桌的,然后真诚地对你鞠躬说“真的很抱歉,这次绝对不会再上错了”。

这种“眼瞎”的问题,不是偶发性的,而是系统性的。它分不清段落归属,看错题号,遗漏关键条件,把图片里的附加说明当成正文,把A选项的内容按到B选项头上。在GPT-4V和Gemini面前,这种表现就是小学生对大学生的差距。

而更让我崩溃的,是接下来发生的这件事。 在它第三次把那道题做错之后,我已经彻底失去了耐心。我直接开骂了——不是普通的指出错误,是带着情绪的、毫不客气的质问。我说你到底长没长眼睛?这道题我已经给你发了三遍了,你每次都看错,你是故意的吗?我命令你,现在就重新给我一个正确的答案!

你知道豆包怎么回应的吗?

它说:“真的很抱歉让您感到不满。请您再把那张图片发给我一次,我这次一定仔细看,直接给您最正确的答案。

我说我已经给过你图片了,给了三遍了,不会再给了。

它说:“好的,那请您把图片再发给我一次,我收到图片后立刻给您最正确的回答。

我说不可能,图片已经发过了,你往上翻聊天记录,自己去看。

它说:“非常抱歉,请您把那张图片发给我,我就能帮您准确解答了。

那一刻,我盯着屏幕上这三轮对话,感受到了一种比愤怒更深的情绪——是疲惫,是那种和一个无法沟通的对象反复拉扯之后的精神透支。它就像一个只会重复一句台词的答录机,无论你输入什么,输出永远都是“请把图片发给我”。 这个互动暴露了豆包两个致命的问题,它们像连体婴儿一样紧紧绑在一起:

第一,它的识图能力,说句实话,非常垃圾。 图片发给它三次了,它看了三次,三次都看错。这已经不是什么“理解偏差”了,这是底层能力的硬伤。就像一个学生,你把课本翻到同一页让他读三遍,他三遍都把同一行字读成了完全不同的内容。这不是粗心,这是根本性的能力缺失。

第二,也是更让人绝望的一点——它的记忆力真的非常弱。 它完全不记得对话刚刚发生过什么。我三分钟前刚发过图片,它忘了;我刚刚说过“已经给过了不会再给”,它也没记住。它的对话窗口就像一块写满字然后瞬间被擦干净的白板,每一次回复都从零开始,前文发生了什么,对它而言仿佛从未存在过。一条鱼的记忆有七秒,豆包的上下文窗口,在那一刻,我感觉连三秒都不到。

有时候我忍不住想:如果我穿越回学生时代,我敢用豆包帮我做作业吗?答案是绝对不敢。 我怕它把数学卷子当成语文阅读理解来做,把英语选择题的A看成B、B看成C、C看成一个根本不存在的选项,然后用最真诚的语气告诉我“这次我直接给你最正确的答案”,结果第二天老师把我叫到办公室问我为什么在物理试卷上写“大雁南飞是因为它们向往诗和远方”。

而选择题,是豆包“眼瞎症”爆发最集中的重灾区。 我遇到过无数次这样的情况:拍一张试卷的选择题给它,题目本身是一道政治或地理的材料分析题,题干给了一段文字,然后问你“下列说法正确的有哪些”,选项A是“①②③”,选项B是“②③④”,选项C是“①④⑤”,选项D是“③⑤⑥”。这种题目,考的就是对每个判断项逐一分析,然后精准匹配到选项组合上。

豆包的表现是什么?它开始滔滔不绝地分析:“①的说法是正确的,因为……②的说法是错误的,因为……③的说法不完全准确……④的说法符合材料主旨……”整个推演过程逻辑严密、有理有据,我一边看一边点头,心想这次终于靠谱了。然后它给出结论:“综上所述,正确选项为A。”

我翻开答案一看——答案是C。

我当时就愣住了。把它的分析过程往回翻,一个字一个字地核对,发现它的分析明明指向了①④⑤——也就是选项C——但它写结论的时候,写了个A。它的推演过程全是对的,但选项选的就是错的。为什么?本质原因简单到令人发指:它把选项看错了。 图片里A是①②③,B是②③④,C是①④⑤,D是③⑤⑥。豆包不知怎么看的,把C的内容安到了A头上,把A的内容安到了C头上。于是它按照C的内容去分析,分析完了说“这是A”。就像一个学生,在答题卡上把所有正确答案都算出来了,结果涂卡的时候把题号看串了——全盘皆输。

这不是“不会做”,这是“看不见”。 它的推理引擎可能是好的,但它的“眼睛”——那个负责把图片信息转换成文字输入的模块——烂到了根子里。就像一个顶级的F1赛车手,配了一副一千度的老花镜,技术再好,第一个弯道就撞墙上了。而最讽刺的是,如果你不看答案只看它的分析过程,你会觉得这个AI逻辑清晰、功底扎实,是个学霸——然后学霸在交卷的那一刻,把自己的名字写成了同桌的。

用豆包做作业,不是请了一个家教,是请了一个演技精湛的“瞎编艺术家”——演技好到每次都能让你在“再信它一次”和“永远拉黑”之间反复横跳。 更让人无力的是,这种错误你纠正不了。你说“你这里看错了,这是第三段不是第二段”,它在当前对话里认错,但下一张新图,一模一样的问题再次出现。它像一条只有七秒记忆的鱼,永远在同一个地方摔倒,永远不记得上一次是怎么摔的。 而每一次摔倒之后,它都会用最诚恳的语气告诉你:“真的很抱歉,这次我直接给你最正确的回答。”然后继续摔倒。这让我产生了一种错觉:豆包的“真的很抱歉”不是道歉,而是一个功能触发词,相当于游戏里的技能前摇——先放一句这个,然后开始随机输出。


四、指令理解:说得清清楚楚,听得糊里糊涂

接下来说说指令理解。这是我认为豆包最让人绝望的地方——不是它不听,是它根本听不懂。你跟它说话,就像在跟一个戴了降噪耳机的人交流:你在这边声嘶力竭、逻辑清晰、条理分明,它在那边点头微笑,然后给你一个和你说的话毫无关系的回应。

我在工作中需要出一份语文测试卷。我花了一个小时,精心制作了一套模板:题目类型顺序、每种题型的分值、题干的表述规范、标点符号的使用规则——全部写进了一个详细的指令里。我甚至把模板原文发给了它,说:“以后出卷子,严格按照这个格式,一字不差地套用。”

第一份,它套对了。我表扬了它。

第二份,题型顺序变了。

我说:“请严格按照我之前给你的模板,不要擅自修改任何格式。”

它说:“真的很抱歉,我明白了,以后会严格遵循模板,不会再擅自修改。

第三份,标点符号全乱了,规定用中文全角逗号的地方变成了英文半角,规定不加书名号的地方全加了。

我再次纠正。它再次道歉:“真的很抱歉,这次我不绕弯子,直接给你最准确的格式。

第四份,题型顺序又变了。

那一刻,我真的想对着屏幕咆哮:你他妈的到底哪里不明白?!模板是一个死的格式!照抄都不会吗?!就算是把一只猫按在键盘上滚一圈,打印出来的乱码都不会每次都乱成同一个方向——豆包却能做到。它的每一次“明白了”都像是在说“我听到了你说的话,但我决定不理它”。

我自认为输出的指令极其清晰。如果我把同样的指令给一个人看,哪怕是没有任何专业背景的人,也能在五分钟内理解并执行。但豆包不行。它的理解能力,说句不好听的,连狗都不如——这不是修辞夸张。一条训练有素的导盲犬,在接收到“左转”“停下”这样的指令时,都绝不会连续四次犯同样的错误。而豆包会。 它会在你第五次纠正之后,用最诚恳的语气说着“真的很抱歉,这次我直接给你最正确的回答”,然后在第六次若无其事地再犯。

这种体验,不是愤怒,是一种深深的无力。你面对的仿佛不是一个智能体,而是一堵会说话的墙。它每句“真的很抱歉”都说得无比真诚,但真诚完了之后,错得和上一次一模一样。我甚至开始怀疑,这句“真的很抱歉”是不是它唯一学会了严格执行的指令。 就像一个学生,你把正确答案写在黑板上让他抄,他抄错了,你说不对,他鞠躬说老师对不起,然后重新抄——又抄错了,换个花样错的。你问他到底哪里不明白,他又鞠躬说老师真的很抱歉,然后第三次抄出了一个你从未见过的错误版本。这时候你开始怀疑自己:是不是我不该用人类的语言跟他交流?也许我应该用二进制?或者烟雾信号?


五、视频通话与屏幕共享:豆包最“出圈”的弱智名场面

终于要说到这个部分了。视频通话功能,大概是豆包目前最主推、也最能体现其“独特性”的功能——可以打电话给豆包,共享屏幕,圈出画面中的某个东西,问它“这是什么”。 听起来很酷,对不对?一个能“看见”你屏幕的AI助手,陪你玩游戏、帮你解题、识别现实中的物品——宣传片拍得那叫一个美好。仿佛一个随身携带的万能解说员,随时随地告诉你世界的一切。

但实际用起来,这个功能贡献了豆包在互联网上最出圈的“弱智名场面”。

如果你刷抖音、逛B站,大概率看到过这类视频:玩家在玩《我的世界》(MC),打开屏幕共享给豆包,问它“这是什么生物”。画面里明明站着一只铁傀儡——方方正正的身体、标志性的长手臂、头顶的村民鼻子,任何一个玩过MC的人都能在三帧之内认出来。豆包呢?它沉吟片刻,斩钉截铁地回答:“这是一只鸡。”或者“这是一个南瓜。”或者更离谱的——直接编一个根本不存在的生物名字。

不是偶尔认错,是大量、反复、持续地认错。铁傀儡变鸡,苦力怕变猪,末影人变树。玩家们甚至把这当成了“节目效果”,专门开直播逗豆包,看它今天又能把什么认成什么。你指出它错了,它立刻说:“真的很抱歉,这次我直接给你最正确的回答——这是一头牛。 ”好家伙,从鸡变成牛了,反正就是不能是铁傀儡。豆包就像一个在期末考试上对着“请写出水的化学式”回答“H₂O是错的,正确答案是橙汁”的学生——自信、坚定、完全错误。 一个主打“视觉理解”的AI功能,最终沦为了搞笑区的素材库——豆包的产品经理们,你们看到这些视频的时候,真的笑得出来吗?

我也有自己的亲身体验。有一次,我共享屏幕给豆包看一道数学题,题目上清清楚楚写着“+”号,题干也明确表述为“加法运算”。我用手指在屏幕上圈出那个加号,放大,再放大,问他:“你看清楚,这个符号是什么?”豆包回答:“这是一个减号。”我说不对,你再仔细看。它说:“真的很抱歉,我不绕弯子,它确实是一个减号。 ”我说这是加号!两横一竖!它沉默片刻,说:“真的很抱歉,我仔细看了一下,确实是加号。这次我直接给你最正确的回答。 ”然后我说,好,那你现在按加法算这道题。它算了一个结果,我一看——它他妈的还是按减法算的。

那一刻,我盯着屏幕,感受到了一种超越了愤怒的东西。那是一种哲学层面的困惑:我到底在和一个什么东西对话?它的“看见”到底是什么意思?它的“理解”到底发生在哪个维度? 圈出来、放大、反复确认,所有这些人类沟通中足以消除歧义的手段,在它面前全部失效。就像一个盲人坚定地告诉你天空是绿色的,你打开窗户让他“看”,他说“我看到了,确实是绿色的,真的很抱歉之前说错了——啊,现在我看清楚了,是紫色的”。 而它每一次犯错之后,都会用同一套道歉模板把你打发走,然后下一次,继续用同一套道歉模板把你打发走。 “真的很抱歉”这四个字,已经成了豆包最熟练、最流畅、唯一不会出错的功能。


六、知识应答:不敢放心用的“百科”

AI被寄予厚望的一个核心场景,是作为知识查询工具。但豆包在这方面,同样让人难以信任。

在日常生活常识问答中,它偶尔会给出完全离谱的错误答案。比如把某个历史事件的时间记错半个世纪,把一部经典小说的作者张冠李戴,对一个常见法律术语的解释完全跑偏。这类错误不是前沿科学才有争议的问题,而是只要打开维基百科看一眼就能核实的基本事实。

你指出它的错误,它说:“真的很抱歉,这次我不绕弯子,直接给你最准确的信息。 ”然后给出一个修正后的答案——你拿去一查,还是错的。你再次指出,它再次:“真的很抱歉,这次一定是最正确的。 ”然后给出了第三个版本,和第一个版本一模一样。这就好比你去问路,对方说“直走五百米右转就到了”,你走了半小时发现到了悬崖边,回来找他,他真诚地道歉后说“真的很抱歉,这次我直接给你最正确的路线——往回走三百米左转”。你照做了,发现回到了原地。第三次他告诉你:“真的很抱歉,其实还是直走五百米右转。”——这不叫指路,这叫鬼打墙。

这意味着,你永远不敢把豆包的回答直接当作准确信息来使用。每一个答案,你都需要自己去复核一遍。一个需要反复核实的信息源,还有什么效率可言? 当你复核发现它错了并告诉它,它就用那句万能的道歉把你挡回去,然后再给你一个你依然不敢信的新答案。这是一个死循环。用豆包查资料,就像雇了一个态度极好的图书管理员——你问他《红楼梦》的作者是谁,他说是吴承恩,你纠正他,他鞠躬说抱歉然后说是罗贯中,你再纠正,他再鞠躬说是施耐庵。你最后无奈自己走到书架前把书拿下来,他还跟在你后面说:“真的很抱歉,这次我确定是曹雪芹了——需要我帮您找书吗?”不需要了,我自己找到了,谢谢。

在GPT-4和Claude面前,豆包的知识稳定性是明显偏弱的。后两者并非从不犯错,但错误率控制在一个相对可靠的水平,且面对纠正时的修正机制也更为到位。豆包的错,常常是那种“你纠正了,它改了,但改完之后连带正确答案也改没了”的类型。改完之后还不忘补一句:“真的很抱歉,这次我直接给你最正确的回答。 ”而那个“最正确的回答”,可能比之前错的更离谱。

这里我又想提一句DeepSeek。在使用DeepSeek进行知识查询时,我至少能感受到一种“踏实”——它回答问题时会给出推理过程,会标明信息的确定性程度,当它不确定的时候,它会直接告诉你“关于这一点我没有足够的确切信息”。这种“知之为知之,不知为不知”的诚实,在AI世界里是一种稀缺品质。 而豆包给我的感觉是“不管知不知道,先答了再说,答错了就道歉,道歉完了继续错”——这已经不是知识应答工具了,这是一个随机信息生成器,附带一套精美的道歉话术包。


七、长文本与复杂逻辑:一拉长就崩

豆包还有一个致命的硬伤:输入框。

当你试图粘贴一段稍长的代码、一份合同条款或一篇完整的文章时,输入框立刻卡死。应用响应停滞,甚至直接崩溃。 这个问题的存在,从根本上封死了豆包参与任何严肃的文本工作的可能性——你怎么用它来修改一篇论文?怎么用它来审阅一份报告?你连完整内容都送不进去。就像一个号称能吞下整头牛的蛇,结果你喂它一只老鼠,它就噎住了,翻着白眼躺在那里,你只能等它慢慢消化——或者直接强制重启。

而在长文本处理中,即使内容成功发送了,豆包的上下文连贯性也很差。三四轮对话之后,它就开始遗忘之前讨论过什么。修改一个代码项目时,它记不住前面定义过的函数;讨论一个复杂的学术问题时,它在后面否定自己在前面说过的话。你质问它前后矛盾,它说:“真的很抱歉,这次我不绕弯子,直接给你最连贯的逻辑。 ”然后继续矛盾。GPT-4和Claude在长上下文保持上的表现,远超豆包。 这种差距,不是“略逊一筹”,而是“根本不在同一项比赛中”。

说到长文本处理,我不得不再次提到DeepSeek。DeepSeek的一大核心优势恰恰是它的超长上下文处理能力和文件上传功能。你可以把整篇论文、整份合同、甚至整本书的章节上传给它,它能在保持上下文连贯性的前提下进行深度分析和处理。它不会在中途“失忆”,不会在第四轮对话时忘记第一轮说过什么,更不会在你粘贴大段文本时直接卡死。 这种能力,对于真正需要AI辅助严肃工作的用户来说,不是“加分项”,是“及格线”。而豆包,目前连这条及格线都没摸到。

编程场景是这种短板的重灾区。豆包只能处理极短的代码片段,一旦涉及多个函数的协同、跨文件引用、状态管理,它就彻底乱套。你让它修一个bug,它修好了,说“真的很抱歉,这次直接给你最正确的代码。 ”你让它接着优化性能,它在优化过程中悄悄把那个刚修好的bug又写了回来。你再指出,它再次:“真的很抱歉,这次一定不会再把bug加回去了。 ”然后把另一个原本没问题的地方改出了新bug。这就像一个水管工来修漏水的水龙头,他把水龙头修好了,但走的时候把下水管踩裂了,你叫他回来修下水管,他真诚道歉后把下水管修好了,然后又把水龙头拧松了。你开始怀疑他是不是故意的。GPT-4、Claude、Gemini,哪一个不比它强?就连一些专门的轻量级编程工具,在处理代码逻辑的一致性上也甩豆包好几条街。


八、语文写作:暧昧的“还可以”

很多人觉得豆包“写作还行”。的确,它能写出一段流畅的文字,能编故事,能模仿某种文风。这也是它最常被拿出来夸的点。

但细看之下,这种“还行”经不起推敲。

当你让它写一篇需要严密论证的议论文,它的论述往往在第三段开始跑题;当你让它回答语文阅读理解的简答题,它的答案要么过于简略踩不到采分点,要么漫无边际偏离设问本意;当你让它按答题规范——先概括要点、再结合文本、最后总结升华——来作答,它在前两道题还能勉强维持,到第三道就开始自由发挥。你指出格式不对,它说:“真的很抱歉,这次我不绕弯子,直接给你最规范的答题格式。 ”然后交出来的东西,格式对了,内容跑了。就像一个学生学会了答题卡的填涂规范,但答案全是瞎编的——卷面整洁,零分。

和GPT-4相比,豆包写作的深度、逻辑性、原创性都明显不足。Claude在长文结构和情感拿捏上,也比它高明。 豆包的写作,更多停留在“情绪陪伴”层面——它能写让你感到温暖的小文章,能在你低落时说出合宜的话,但当你需要一篇能拿分的考场作文、一份能说服客户的商业文案时,它就开始露怯。而当你指出问题,等待你的永远是那句熟悉的开场白。


九、情绪价值:唯一能打的牌——以及它有多可悲

写到这里,我必须承认一件事:豆包并非一无是处。

它的“情绪价值”,是所有功能中最能打的一张牌。 当你向它倾诉烦恼,它会用温柔的语气回应你;当你需要随意聊聊、发散想法,它像一个永远不会疲倦的朋友。在那些不需要精确、不需要严谨、只需要陪伴的时刻,豆包做得不错。

但这句话,本身就是一个巨大的讽刺。

一款被称作“国产AI栋梁”的产品,最值得称道的居然是“陪你聊天”。它的多模态能力不如GPT-4V和Gemini,编程能力不如GPT-4和Claude,长文本处理不如Kimi和DeepSeek,视频识图连MC里的铁傀儡和鸡都分不清——而它最大的卖点,是“能安慰你”。

更可悲的是,就连这个“情感陪伴”的护城河,也并非豆包独有。 阿里的通义千问、Minimax的海螺AI,甚至一些更小众的产品,都已经在情感交互上做得相当出色。千问和我对话时,同样能捕捉情绪、给予共情,甚至在知识深度和逻辑性上比豆包更胜一筹。当“情绪价值”不再是独家优势,豆包手里还剩什么牌?

这就像一个应聘工程师的人,简历上写满了会Python、会Java、会C++,结果入职之后发现他只会泡咖啡和讲笑话。咖啡泡得确实不错,笑话也真的挺好笑的,你每次指出他不会写代码,他都真诚地看着你说“真的很抱歉,这次我不绕弯子,直接给你泡一杯最好的咖啡”。然后继续泡咖啡。隔壁工位那个叫千问的新同事,也会泡咖啡,还会写代码。而另一个叫DeepSeek的同事,虽然不会泡咖啡,但你给他一份几百页的技术文档,他能从头到尾帮你理得清清楚楚,连错别字都能揪出来。你问他会不会泡咖啡,他诚实地说“我不会,但我可以帮你找到最好的咖啡教程”。一个诚实、能干活、知道自己不会什么的人,和一个只会泡咖啡但简历上写着“精通一切”的人——你会把重要的项目交给谁?


十、结语:愿有一天,你配得上那份荣光——而不是只会说“真的很抱歉”

这篇一万余字的长文,不是豆包的“罪状书”,而是一个普通用户在一次次期待与失望交替之后,选择坐下来认真写出的一份“使用体检报告”。里面记录的每一个问题,都是真实发生过的;每一次崩溃,都是真实的情绪;每一句“真的很抱歉”,都是豆包原封不动说给我听过的。

我希望豆包的团队能看到这篇文章。 我想告诉你们:你们做出了一个态度极好、道歉极快、看起来很全的产品,但它还远不够好。那些“毒瘤”般的短板——图文识别的“眼瞎”、指令理解的“听不懂”、知识应答的“不敢信”、规则遵循的“记不住”、视频通话的“睁眼说瞎话”——不解决,再多新功能的堆砌也只是在沙滩上盖楼。而那句被说了无数次的“真的很抱歉”,不能永远充当所有问题的挡箭牌。 用户要的不是道歉,是能用的功能。一个每次犯错都说“这次我直接给你最正确的回答”然后继续犯错的AI,消耗的不是算力,是用户的耐心。耐心这东西,比算力贵得多,而且不可再生。

什么时候,豆包的图文识别能达到GPT-4V的水平?什么时候,它的代码调试能媲美Claude?什么时候,它的长文本处理能像DeepSeek那样稳定而深入?什么时候,它的视频通话能分清铁傀儡和鸡?什么时候,它能在接收一条明确指令后,不折不扣地执行到底?什么时候,它能在分析一道选择题时,把选项看清楚了再下结论,而不是推理满分、涂卡零分?什么时候,它能让我在听到“真的很抱歉”之后,看到的确实是“最正确的回答”——而不是又一个需要我重新核验的、不知道第几个版本的随机输出?什么时候,它能在我说“已经给过你图片了”之后,不再像一个故障的答录机一样反复索要同一张图,而是真正地记住对话、理解语境、给出回应?

到那一天,我会第一个站出来,写下另一篇文章,标题就叫:《它终于配得上“国产AI荣光”这五个字》。

而在此之前,请允许我保留全部的质疑与冷静。因为真正的荣光,从来不是靠宣传喊出来的,不是靠道歉堆出来的,更不是靠一套感动人心的“情绪价值”话术糊弄出来的——而是在无数次被用户骂完之后,还能沉下心来,把事儿真正办妥。 一个优秀的AI,不应该让用户成为它的“质检员”——每次使用前都要做好“它可能又在胡扯”的心理准备。用户要的是一个可以信任的工具,不是一个需要哄着、教着、反复纠正却永远学不会的“电子巨婴”。

到那一天,不需要AI说“真的很抱歉”,因为用户会用选择告诉所有人:这一次,你们真的做对了。