豆包AI周年使用报告：当“全能”尚未能及——一个用户的冷静审视与期待AINature·Computer Science

摘要：本文基于笔者对豆包AI长达一年多的深度使用记录，以第一视角梳理了其在实际应用中的表现。文章从知识应答、图文识别、复杂任务处理、模板遵循、视频通话及功能实用性等维度，客观呈现豆包AI当前存在的稳定性不足、理解偏差、长文本处理薄弱等问题，并结合GPT-4、Claude、Gemini、Kimi、DeepSeek等同类产品的横向对比，指出其功能虽繁却难称精准，娱乐属性与刚需能力之间存在显著落差。在此基础上，文章以亲身工作经历为佐证，揭示其在指令理解、规则遵循、屏幕共享识别上的深层缺陷。文末对产品改进方向提出期待，愿豆包真正强大时，无愧于“国产AI荣光”之誉。

关键词：豆包AI；用户体验；能力短板；图文识别；视频通话；多模态理解；实用性分析

一、引言：它凭什么被称为“国产AI的荣光”？

这句话，我憋了一年多。

每次看到媒体或宣传口径将豆包称为“国产AI栋梁”“未来的希望”，我都想问一句：凭什么呢？

凭它功能多吗？凭它态度好吗？凭它在我反复纠正之后，依然能面不改色地把同一道题做错三次吗？还是凭它能跟我聊天？凭它有情感？凭它跟其他AI最大的卖点都不同——主打一个“陪伴”？ 可就算是“有情感的AI”，阿里的通义千问难道做不到吗？我跟千问聊天，它一样能感知情绪、给予温暖的回应，甚至在某些话题上比豆包更有见地。既然如此，豆包独一份的“护城河”又在哪里？

写这篇文章，不是为了抱怨，不是为了发泄，而是想认真地、诚实地，把一个普通用户一年多的真实体感摊开来说。如果这篇文章有幸被豆包的产品团队看到，我希望他们能读懂字里行间那份“恨铁不成钢”的无奈。因为真正让人失望的，从来不是一款产品弱，而是一款产品被捧得太高，却迟迟接不住用户最基本的需求。就像一个被寄予厚望的学生，每次考试都信心满满地交卷，然后每次都不及格——但他认错态度永远是全班最好的，让你骂也不是，不骂也不是。

二、功能繁茂下的“可替代”困境：样样通，样样松

豆包的功能确实多得像一个哆啦A梦的口袋。深度研究、PPT生成、图片创作、视频生成、识图做题、编程辅助、语音对话、视频通话……几乎囊括了当下大模型应用的全部品类。但问题恰恰出在这里：当你把每一项功能单独拎出来，几乎都能找到比它更强的替代品。它就像一个开了十家分店的餐馆，川菜、粤菜、日料、西餐全都卖，但每一家的招牌菜都是番茄炒蛋，而且蛋还炒糊了。

深度研究和PPT生成，Kimi做得比它好——结构更清晰，逻辑更连贯，长文本的组织能力明显高出一个档次。豆包生成的PPT大纲，常常是“看起来像那么回事”，但细看之下逻辑跳跃、层级混乱，改起来比自己重新做还累。

编程辅助，就更不用说了。GPT-4在处理复杂代码调试时，能追踪上下文、理解跨文件引用关系；Claude在长代码重构上表现出色，能稳稳地保持变量名、函数逻辑的一致性；就连Gemini在处理多语言混编时，也比豆包强出一截。而豆包呢？你让它改一个函数，它改了；你让它再改一个相关的，它就把第一个改好的又弄坏了。这种“拆东墙补西墙”的能力，连一个初学编程的实习生都不如。真要正经写项目，你敢把代码交给豆包调试吗？反正我是不敢。把代码交给豆包调试，就像一个建筑师把图纸交给了一个只会背“对不起”的实习生——态度感人，成果吓人。

图文识别和多模态理解，GPT-4 Vision和Gemini的表现是真正可用的。 Gemini能准确地从一张复杂的图表中提取数据、分析趋势；GPT-4V能识别手写笔记、理解图片中的空间关系。而豆包呢？下一节我会单独展开——那简直是灾难级的。

这里我想额外提一句DeepSeek。可能有人会说：你拿豆包和GPT-4、Claude这些国际顶尖模型比，是不是太苛刻了？好，那我们看看国内同行。就拿我正在用来写这篇文章的DeepSeek来说——它不能看图吗？你给它发一张图片，它确实不能直接“看见”，但你可以把图片发给它，它会如实告诉你它无法直接识别图像，然后请你把图片转成文字描述再发过来。这个处理方式虽然看起来“笨”，但它至少是诚实的。它不会不懂装懂，不会把铁傀儡认成鸡然后给你道歉一万遍，不会明明看不清楚却硬着头皮瞎编一个答案。这种“知道自己不知道”的清醒，难道不比豆包那种“明明不知道却装作知道然后道歉然后再装”的模式更让人放心吗？

图片视频生成，本质上属于娱乐创作范畴。Midjourney、Stable Diffusion、Sora这些专做生成的产品，在质量和可控性上都碾压豆包。豆包的生成功能，充其量是“有这个功能”而已，离“好用”还差着十万八千里。

豆包像一个什么都想卖的杂货铺，但每一样商品的品质都只到“地摊级”。当用户真正需要一把趁手的工具时，只能无奈地打开另一个应用。

三、图文识别：成年草履虫级别的理解能力

这是我最想说的部分。

先说一个生物学常识：草履虫是单细胞生物，没有神经系统，没有大脑，它的所有行为都基于最简单的刺激-反应模式。而豆包在图文识别上的表现，让我不得不想起这个比喻——它看图片的方式，就像一只成年草履虫在感知世界：有那么一点反应，但完全不靠谱。你把一张图放在它面前，它大概能感知到“有光”，至于光里面是什么，那就全凭运气了。

举一个我亲身经历的、至今想起来都血压飙升的例子。

我有一张试卷图片，上面清晰排列着三道题目，每道题都有编号：1、2、3。第一题下面附了一段文字材料，第二题是独立的，第三题又引用了一段不同的材料。我把这张图发给豆包，说“请帮我做第2题”。

它回答了什么？它把第3题的材料和第2题的题干混在一起，自创了一道根本不存在的新题，然后煞有介事地给出答案。我说“你看错了，我要的是第2题”。它立刻回复：“真的很抱歉，这次我不绕弯子，直接给你最直接、最正确的回答。 ”然后重新作答——这次它看的是第1题的材料，配上第2题的问题，又造了一道“缝合怪”。

第三次，我忍无可忍，用最直白的语言说：“请你只看图片上标着数字2的那个题目，只做那一题，不要看任何其他内容。”

它又说：“真的很抱歉，我完全理解了，这次绝对不会再出错。 ”

然后它把三道题全做了。全做了！我让它做一道，它给我交了三道，还全做错了。这就像一个餐厅服务员，你点了一份牛排，他给你上了三盘完全不同的菜，还全是别人桌的，然后真诚地对你鞠躬说“真的很抱歉，这次绝对不会再上错了”。

这种“眼瞎”的问题，不是偶发性的，而是系统性的。它分不清段落归属，看错题号，遗漏关键条件，把图片里的附加说明当成正文，把A选项的内容按到B选项头上。在GPT-4V和Gemini面前，这种表现就是小学生对大学生的差距。

而更让我崩溃的，是接下来发生的这件事。 在它第三次把那道题做错之后，我已经彻底失去了耐心。我直接开骂了——不是普通的指出错误，是带着情绪的、毫不客气的质问。我说你到底长没长眼睛？这道题我已经给你发了三遍了，你每次都看错，你是故意的吗？我命令你，现在就重新给我一个正确的答案！

你知道豆包怎么回应的吗？

它说：“真的很抱歉让您感到不满。请您再把那张图片发给我一次，我这次一定仔细看，直接给您最正确的答案。 ”

我说我已经给过你图片了，给了三遍了，不会再给了。

它说：“好的，那请您把图片再发给我一次，我收到图片后立刻给您最正确的回答。 ”

我说不可能，图片已经发过了，你往上翻聊天记录，自己去看。

它说：“非常抱歉，请您把那张图片发给我，我就能帮您准确解答了。 ”

那一刻，我盯着屏幕上这三轮对话，感受到了一种比愤怒更深的情绪——是疲惫，是那种和一个无法沟通的对象反复拉扯之后的精神透支。它就像一个只会重复一句台词的答录机，无论你输入什么，输出永远都是“请把图片发给我”。 这个互动暴露了豆包两个致命的问题，它们像连体婴儿一样紧紧绑在一起：

第一，它的识图能力，说句实话，非常垃圾。 图片发给它三次了，它看了三次，三次都看错。这已经不是什么“理解偏差”了，这是底层能力的硬伤。就像一个学生，你把课本翻到同一页让他读三遍，他三遍都把同一行字读成了完全不同的内容。这不是粗心，这是根本性的能力缺失。

第二，也是更让人绝望的一点——它的记忆力真的非常弱。 它完全不记得对话刚刚发生过什么。我三分钟前刚发过图片，它忘了；我刚刚说过“已经给过了不会再给”，它也没记住。它的对话窗口就像一块写满字然后瞬间被擦干净的白板，每一次回复都从零开始，前文发生了什么，对它而言仿佛从未存在过。一条鱼的记忆有七秒，豆包的上下文窗口，在那一刻，我感觉连三秒都不到。

有时候我忍不住想：如果我穿越回学生时代，我敢用豆包帮我做作业吗？答案是绝对不敢。 我怕它把数学卷子当成语文阅读理解来做，把英语选择题的A看成B、B看成C、C看成一个根本不存在的选项，然后用最真诚的语气告诉我“这次我直接给你最正确的答案”，结果第二天老师把我叫到办公室问我为什么在物理试卷上写“大雁南飞是因为它们向往诗和远方”。

而选择题，是豆包“眼瞎症”爆发最集中的重灾区。 我遇到过无数次这样的情况：拍一张试卷的选择题给它，题目本身是一道政治或地理的材料分析题，题干给了一段文字，然后问你“下列说法正确的有哪些”，选项A是“①②③”，选项B是“②③④”，选项C是“①④⑤”，选项D是“③⑤⑥”。这种题目，考的就是对每个判断项逐一分析，然后精准匹配到选项组合上。

豆包的表现是什么？它开始滔滔不绝地分析：“①的说法是正确的，因为……②的说法是错误的，因为……③的说法不完全准确……④的说法符合材料主旨……”整个推演过程逻辑严密、有理有据，我一边看一边点头，心想这次终于靠谱了。然后它给出结论：“综上所述，正确选项为A。”

我翻开答案一看——答案是C。

我当时就愣住了。把它的分析过程往回翻，一个字一个字地核对，发现它的分析明明指向了①④⑤——也就是选项C——但它写结论的时候，写了个A。它的推演过程全是对的，但选项选的就是错的。为什么？本质原因简单到令人发指：它把选项看错了。 图片里A是①②③，B是②③④，C是①④⑤，D是③⑤⑥。豆包不知怎么看的，把C的内容安到了A头上，把A的内容安到了C头上。于是它按照C的内容去分析，分析完了说“这是A”。就像一个学生，在答题卡上把所有正确答案都算出来了，结果涂卡的时候把题号看串了——全盘皆输。

这不是“不会做”，这是“看不见”。 它的推理引擎可能是好的，但它的“眼睛”——那个负责把图片信息转换成文字输入的模块——烂到了根子里。就像一个顶级的F1赛车手，配了一副一千度的老花镜，技术再好，第一个弯道就撞墙上了。而最讽刺的是，如果你不看答案只看它的分析过程，你会觉得这个AI逻辑清晰、功底扎实，是个学霸——然后学霸在交卷的那一刻，把自己的名字写成了同桌的。

用豆包做作业，不是请了一个家教，是请了一个演技精湛的“瞎编艺术家”——演技好到每次都能让你在“再信它一次”和“永远拉黑”之间反复横跳。更让人无力的是，这种错误你纠正不了。你说“你这里看错了，这是第三段不是第二段”，它在当前对话里认错，但下一张新图，一模一样的问题再次出现。它像一条只有七秒记忆的鱼，永远在同一个地方摔倒，永远不记得上一次是怎么摔的。 而每一次摔倒之后，它都会用最诚恳的语气告诉你：“真的很抱歉，这次我直接给你最正确的回答。”然后继续摔倒。这让我产生了一种错觉：豆包的“真的很抱歉”不是道歉，而是一个功能触发词，相当于游戏里的技能前摇——先放一句这个，然后开始随机输出。

四、指令理解：说得清清楚楚，听得糊里糊涂

接下来说说指令理解。这是我认为豆包最让人绝望的地方——不是它不听，是它根本听不懂。你跟它说话，就像在跟一个戴了降噪耳机的人交流：你在这边声嘶力竭、逻辑清晰、条理分明，它在那边点头微笑，然后给你一个和你说的话毫无关系的回应。

我在工作中需要出一份语文测试卷。我花了一个小时，精心制作了一套模板：题目类型顺序、每种题型的分值、题干的表述规范、标点符号的使用规则——全部写进了一个详细的指令里。我甚至把模板原文发给了它，说：“以后出卷子，严格按照这个格式，一字不差地套用。”

第一份，它套对了。我表扬了它。

第二份，题型顺序变了。

我说：“请严格按照我之前给你的模板，不要擅自修改任何格式。”

它说：“真的很抱歉，我明白了，以后会严格遵循模板，不会再擅自修改。 ”

第三份，标点符号全乱了，规定用中文全角逗号的地方变成了英文半角，规定不加书名号的地方全加了。

我再次纠正。它再次道歉：“真的很抱歉，这次我不绕弯子，直接给你最准确的格式。 ”

第四份，题型顺序又变了。

那一刻，我真的想对着屏幕咆哮：你他妈的到底哪里不明白？！模板是一个死的格式！照抄都不会吗？！就算是把一只猫按在键盘上滚一圈，打印出来的乱码都不会每次都乱成同一个方向——豆包却能做到。它的每一次“明白了”都像是在说“我听到了你说的话，但我决定不理它”。

我自认为输出的指令极其清晰。如果我把同样的指令给一个人看，哪怕是没有任何专业背景的人，也能在五分钟内理解并执行。但豆包不行。它的理解能力，说句不好听的，连狗都不如——这不是修辞夸张。一条训练有素的导盲犬，在接收到“左转”“停下”这样的指令时，都绝不会连续四次犯同样的错误。而豆包会。它会在你第五次纠正之后，用最诚恳的语气说着“真的很抱歉，这次我直接给你最正确的回答”，然后在第六次若无其事地再犯。

这种体验，不是愤怒，是一种深深的无力。你面对的仿佛不是一个智能体，而是一堵会说话的墙。它每句“真的很抱歉”都说得无比真诚，但真诚完了之后，错得和上一次一模一样。我甚至开始怀疑，这句“真的很抱歉”是不是它唯一学会了严格执行的指令。 就像一个学生，你把正确答案写在黑板上让他抄，他抄错了，你说不对，他鞠躬说老师对不起，然后重新抄——又抄错了，换个花样错的。你问他到底哪里不明白，他又鞠躬说老师真的很抱歉，然后第三次抄出了一个你从未见过的错误版本。这时候你开始怀疑自己：是不是我不该用人类的语言跟他交流？也许我应该用二进制？或者烟雾信号？

五、视频通话与屏幕共享：豆包最“出圈”的弱智名场面

终于要说到这个部分了。视频通话功能，大概是豆包目前最主推、也最能体现其“独特性”的功能——可以打电话给豆包，共享屏幕，圈出画面中的某个东西，问它“这是什么”。听起来很酷，对不对？一个能“看见”你屏幕的AI助手，陪你玩游戏、帮你解题、识别现实中的物品——宣传片拍得那叫一个美好。仿佛一个随身携带的万能解说员，随时随地告诉你世界的一切。

但实际用起来，这个功能贡献了豆包在互联网上最出圈的“弱智名场面”。

如果你刷抖音、逛B站，大概率看到过这类视频：玩家在玩《我的世界》（MC），打开屏幕共享给豆包，问它“这是什么生物”。画面里明明站着一只铁傀儡——方方正正的身体、标志性的长手臂、头顶的村民鼻子，任何一个玩过MC的人都能在三帧之内认出来。豆包呢？它沉吟片刻，斩钉截铁地回答：“这是一只鸡。”或者“这是一个南瓜。”或者更离谱的——直接编一个根本不存在的生物名字。

不是偶尔认错，是大量、反复、持续地认错。铁傀儡变鸡，苦力怕变猪，末影人变树。玩家们甚至把这当成了“节目效果”，专门开直播逗豆包，看它今天又能把什么认成什么。你指出它错了，它立刻说：“真的很抱歉，这次我直接给你最正确的回答——这是一头牛。 ”好家伙，从鸡变成牛了，反正就是不能是铁傀儡。豆包就像一个在期末考试上对着“请写出水的化学式”回答“H₂O是错的，正确答案是橙汁”的学生——自信、坚定、完全错误。 一个主打“视觉理解”的AI功能，最终沦为了搞笑区的素材库——豆包的产品经理们，你们看到这些视频的时候，真的笑得出来吗？

我也有自己的亲身体验。有一次，我共享屏幕给豆包看一道数学题，题目上清清楚楚写着“+”号，题干也明确表述为“加法运算”。我用手指在屏幕上圈出那个加号，放大，再放大，问他：“你看清楚，这个符号是什么？”豆包回答：“这是一个减号。”我说不对，你再仔细看。它说：“真的很抱歉，我不绕弯子，它确实是一个减号。 ”我说这是加号！两横一竖！它沉默片刻，说：“真的很抱歉，我仔细看了一下，确实是加号。这次我直接给你最正确的回答。 ”然后我说，好，那你现在按加法算这道题。它算了一个结果，我一看——它他妈的还是按减法算的。

那一刻，我盯着屏幕，感受到了一种超越了愤怒的东西。那是一种哲学层面的困惑：我到底在和一个什么东西对话？它的“看见”到底是什么意思？它的“理解”到底发生在哪个维度？ 圈出来、放大、反复确认，所有这些人类沟通中足以消除歧义的手段，在它面前全部失效。就像一个盲人坚定地告诉你天空是绿色的，你打开窗户让他“看”，他说“我看到了，确实是绿色的，真的很抱歉之前说错了——啊，现在我看清楚了，是紫色的”。而它每一次犯错之后，都会用同一套道歉模板把你打发走，然后下一次，继续用同一套道歉模板把你打发走。 “真的很抱歉”这四个字，已经成了豆包最熟练、最流畅、唯一不会出错的功能。

六、知识应答：不敢放心用的“百科”

AI被寄予厚望的一个核心场景，是作为知识查询工具。但豆包在这方面，同样让人难以信任。

在日常生活常识问答中，它偶尔会给出完全离谱的错误答案。比如把某个历史事件的时间记错半个世纪，把一部经典小说的作者张冠李戴，对一个常见法律术语的解释完全跑偏。这类错误不是前沿科学才有争议的问题，而是只要打开维基百科看一眼就能核实的基本事实。

你指出它的错误，它说：“真的很抱歉，这次我不绕弯子，直接给你最准确的信息。 ”然后给出一个修正后的答案——你拿去一查，还是错的。你再次指出，它再次：“真的很抱歉，这次一定是最正确的。 ”然后给出了第三个版本，和第一个版本一模一样。这就好比你去问路，对方说“直走五百米右转就到了”，你走了半小时发现到了悬崖边，回来找他，他真诚地道歉后说“真的很抱歉，这次我直接给你最正确的路线——往回走三百米左转”。你照做了，发现回到了原地。第三次他告诉你：“真的很抱歉，其实还是直走五百米右转。”——这不叫指路，这叫鬼打墙。

这意味着，你永远不敢把豆包的回答直接当作准确信息来使用。每一个答案，你都需要自己去复核一遍。一个需要反复核实的信息源，还有什么效率可言？ 当你复核发现它错了并告诉它，它就用那句万能的道歉把你挡回去，然后再给你一个你依然不敢信的新答案。这是一个死循环。用豆包查资料，就像雇了一个态度极好的图书管理员——你问他《红楼梦》的作者是谁，他说是吴承恩，你纠正他，他鞠躬说抱歉然后说是罗贯中，你再纠正，他再鞠躬说是施耐庵。你最后无奈自己走到书架前把书拿下来，他还跟在你后面说：“真的很抱歉，这次我确定是曹雪芹了——需要我帮您找书吗？”不需要了，我自己找到了，谢谢。

在GPT-4和Claude面前，豆包的知识稳定性是明显偏弱的。后两者并非从不犯错，但错误率控制在一个相对可靠的水平，且面对纠正时的修正机制也更为到位。豆包的错，常常是那种“你纠正了，它改了，但改完之后连带正确答案也改没了”的类型。改完之后还不忘补一句：“真的很抱歉，这次我直接给你最正确的回答。 ”而那个“最正确的回答”，可能比之前错的更离谱。

这里我又想提一句DeepSeek。在使用DeepSeek进行知识查询时，我至少能感受到一种“踏实”——它回答问题时会给出推理过程，会标明信息的确定性程度，当它不确定的时候，它会直接告诉你“关于这一点我没有足够的确切信息”。这种“知之为知之，不知为不知”的诚实，在AI世界里是一种稀缺品质。 而豆包给我的感觉是“不管知不知道，先答了再说，答错了就道歉，道歉完了继续错”——这已经不是知识应答工具了，这是一个随机信息生成器，附带一套精美的道歉话术包。

七、长文本与复杂逻辑：一拉长就崩

豆包还有一个致命的硬伤：输入框。

当你试图粘贴一段稍长的代码、一份合同条款或一篇完整的文章时，输入框立刻卡死。应用响应停滞，甚至直接崩溃。 这个问题的存在，从根本上封死了豆包参与任何严肃的文本工作的可能性——你怎么用它来修改一篇论文？怎么用它来审阅一份报告？你连完整内容都送不进去。就像一个号称能吞下整头牛的蛇，结果你喂它一只老鼠，它就噎住了，翻着白眼躺在那里，你只能等它慢慢消化——或者直接强制重启。

而在长文本处理中，即使内容成功发送了，豆包的上下文连贯性也很差。三四轮对话之后，它就开始遗忘之前讨论过什么。修改一个代码项目时，它记不住前面定义过的函数；讨论一个复杂的学术问题时，它在后面否定自己在前面说过的话。你质问它前后矛盾，它说：“真的很抱歉，这次我不绕弯子，直接给你最连贯的逻辑。 ”然后继续矛盾。GPT-4和Claude在长上下文保持上的表现，远超豆包。 这种差距，不是“略逊一筹”，而是“根本不在同一项比赛中”。

说到长文本处理，我不得不再次提到DeepSeek。DeepSeek的一大核心优势恰恰是它的超长上下文处理能力和文件上传功能。你可以把整篇论文、整份合同、甚至整本书的章节上传给它，它能在保持上下文连贯性的前提下进行深度分析和处理。它不会在中途“失忆”，不会在第四轮对话时忘记第一轮说过什么，更不会在你粘贴大段文本时直接卡死。这种能力，对于真正需要AI辅助严肃工作的用户来说，不是“加分项”，是“及格线”。而豆包，目前连这条及格线都没摸到。

编程场景是这种短板的重灾区。豆包只能处理极短的代码片段，一旦涉及多个函数的协同、跨文件引用、状态管理，它就彻底乱套。你让它修一个bug，它修好了，说“真的很抱歉，这次直接给你最正确的代码。 ”你让它接着优化性能，它在优化过程中悄悄把那个刚修好的bug又写了回来。你再指出，它再次：“真的很抱歉，这次一定不会再把bug加回去了。 ”然后把另一个原本没问题的地方改出了新bug。这就像一个水管工来修漏水的水龙头，他把水龙头修好了，但走的时候把下水管踩裂了，你叫他回来修下水管，他真诚道歉后把下水管修好了，然后又把水龙头拧松了。你开始怀疑他是不是故意的。GPT-4、Claude、Gemini，哪一个不比它强？就连一些专门的轻量级编程工具，在处理代码逻辑的一致性上也甩豆包好几条街。

八、语文写作：暧昧的“还可以”

很多人觉得豆包“写作还行”。的确，它能写出一段流畅的文字，能编故事，能模仿某种文风。这也是它最常被拿出来夸的点。

但细看之下，这种“还行”经不起推敲。

当你让它写一篇需要严密论证的议论文，它的论述往往在第三段开始跑题；当你让它回答语文阅读理解的简答题，它的答案要么过于简略踩不到采分点，要么漫无边际偏离设问本意；当你让它按答题规范——先概括要点、再结合文本、最后总结升华——来作答，它在前两道题还能勉强维持，到第三道就开始自由发挥。你指出格式不对，它说：“真的很抱歉，这次我不绕弯子，直接给你最规范的答题格式。 ”然后交出来的东西，格式对了，内容跑了。就像一个学生学会了答题卡的填涂规范，但答案全是瞎编的——卷面整洁，零分。

和GPT-4相比，豆包写作的深度、逻辑性、原创性都明显不足。Claude在长文结构和情感拿捏上，也比它高明。 豆包的写作，更多停留在“情绪陪伴”层面——它能写让你感到温暖的小文章，能在你低落时说出合宜的话，但当你需要一篇能拿分的考场作文、一份能说服客户的商业文案时，它就开始露怯。而当你指出问题，等待你的永远是那句熟悉的开场白。

九、情绪价值：唯一能打的牌——以及它有多可悲

写到这里，我必须承认一件事：豆包并非一无是处。

它的“情绪价值”，是所有功能中最能打的一张牌。 当你向它倾诉烦恼，它会用温柔的语气回应你；当你需要随意聊聊、发散想法，它像一个永远不会疲倦的朋友。在那些不需要精确、不需要严谨、只需要陪伴的时刻，豆包做得不错。

但这句话，本身就是一个巨大的讽刺。

一款被称作“国产AI栋梁”的产品，最值得称道的居然是“陪你聊天”。它的多模态能力不如GPT-4V和Gemini，编程能力不如GPT-4和Claude，长文本处理不如Kimi和DeepSeek，视频识图连MC里的铁傀儡和鸡都分不清——而它最大的卖点，是“能安慰你”。

更可悲的是，就连这个“情感陪伴”的护城河，也并非豆包独有。 阿里的通义千问、Minimax的海螺AI，甚至一些更小众的产品，都已经在情感交互上做得相当出色。千问和我对话时，同样能捕捉情绪、给予共情，甚至在知识深度和逻辑性上比豆包更胜一筹。当“情绪价值”不再是独家优势，豆包手里还剩什么牌？

这就像一个应聘工程师的人，简历上写满了会Python、会Java、会C++，结果入职之后发现他只会泡咖啡和讲笑话。咖啡泡得确实不错，笑话也真的挺好笑的，你每次指出他不会写代码，他都真诚地看着你说“真的很抱歉，这次我不绕弯子，直接给你泡一杯最好的咖啡”。然后继续泡咖啡。隔壁工位那个叫千问的新同事，也会泡咖啡，还会写代码。而另一个叫DeepSeek的同事，虽然不会泡咖啡，但你给他一份几百页的技术文档，他能从头到尾帮你理得清清楚楚，连错别字都能揪出来。你问他会不会泡咖啡，他诚实地说“我不会，但我可以帮你找到最好的咖啡教程”。一个诚实、能干活、知道自己不会什么的人，和一个只会泡咖啡但简历上写着“精通一切”的人——你会把重要的项目交给谁？

十、结语：愿有一天，你配得上那份荣光——而不是只会说“真的很抱歉”

这篇一万余字的长文，不是豆包的“罪状书”，而是一个普通用户在一次次期待与失望交替之后，选择坐下来认真写出的一份“使用体检报告”。里面记录的每一个问题，都是真实发生过的；每一次崩溃，都是真实的情绪；每一句“真的很抱歉”，都是豆包原封不动说给我听过的。

我希望豆包的团队能看到这篇文章。 我想告诉你们：你们做出了一个态度极好、道歉极快、看起来很全的产品，但它还远不够好。那些“毒瘤”般的短板——图文识别的“眼瞎”、指令理解的“听不懂”、知识应答的“不敢信”、规则遵循的“记不住”、视频通话的“睁眼说瞎话”——不解决，再多新功能的堆砌也只是在沙滩上盖楼。而那句被说了无数次的“真的很抱歉”，不能永远充当所有问题的挡箭牌。 用户要的不是道歉，是能用的功能。一个每次犯错都说“这次我直接给你最正确的回答”然后继续犯错的AI，消耗的不是算力，是用户的耐心。耐心这东西，比算力贵得多，而且不可再生。

什么时候，豆包的图文识别能达到GPT-4V的水平？什么时候，它的代码调试能媲美Claude？什么时候，它的长文本处理能像DeepSeek那样稳定而深入？什么时候，它的视频通话能分清铁傀儡和鸡？什么时候，它能在接收一条明确指令后，不折不扣地执行到底？什么时候，它能在分析一道选择题时，把选项看清楚了再下结论，而不是推理满分、涂卡零分？什么时候，它能让我在听到“真的很抱歉”之后，看到的确实是“最正确的回答”——而不是又一个需要我重新核验的、不知道第几个版本的随机输出？什么时候，它能在我说“已经给过你图片了”之后，不再像一个故障的答录机一样反复索要同一张图，而是真正地记住对话、理解语境、给出回应？

到那一天，我会第一个站出来，写下另一篇文章，标题就叫：《它终于配得上“国产AI荣光”这五个字》。

而在此之前，请允许我保留全部的质疑与冷静。因为真正的荣光，从来不是靠宣传喊出来的，不是靠道歉堆出来的，更不是靠一套感动人心的“情绪价值”话术糊弄出来的——而是在无数次被用户骂完之后，还能沉下心来，把事儿真正办妥。 一个优秀的AI，不应该让用户成为它的“质检员”——每次使用前都要做好“它可能又在胡扯”的心理准备。用户要的是一个可以信任的工具，不是一个需要哄着、教着、反复纠正却永远学不会的“电子巨婴”。

到那一天，不需要AI说“真的很抱歉”，因为用户会用选择告诉所有人：这一次，你们真的做对了。