豆包AI周年使用报告：当“全能”尚未能及，一个用户的冷静审视与期待InnoAI期刊第一期刊报文发布：豆包AI周年使用报告

摘要：本文基于笔者对豆包AI长达一年多的深度使用记录，以第一视角梳理了其在实际应用中的表现；文章从知识应答、图文识别、复杂任务处理、模板遵循、视频通话及功能实用性等维度，客观呈现豆包AI当前存在的稳定性不足、理解偏差、长文本处理薄弱等问题，并结合GPT-4、Claude、Gemini、Kimi、DeepSeek等同类产品的横向对比，指出其功能虽繁却难称精准，娱乐属性与刚需能力之间存在显著落差；在此基础上，文章以亲身工作经历为佐证，揭示其在指令理解、规则遵循、屏幕共享识别上的深层缺陷；文末对产品改进方向提出期待，愿豆包真正强大时，无愧于“国产AI荣光”之誉

关键词：豆包AI；用户体验；能力短板；图文识别；视频通话；多模态理解；实用性分析

一.引言：它凭什么被称为“国产AI的荣光”

这句话，我憋了一年多

每次看到媒体或宣传口径将豆包称为“国产AI栋梁”“未来的希望”，我都想问一句：凭什么呢

凭它功能多吗，凭它态度好吗，凭它在我反复纠正之后，依然能面不改色地把同一道题做错三次吗，还是凭它能跟我聊天，凭它有情感，凭它跟其他AI最大的卖点都不同，主打一个“陪伴” ；可就算是“有情感的AI”，阿里的通义千问难道做不到吗，我跟千问聊天，它一样能感知情绪、给予温暖的回应，甚至在某些话题上比豆包更有见地；既然如此，豆包独一份的“护城河”又在哪里，而对于“国产AI栋梁”“未来的希望”，说实话，它不配，一点都不配，至少现阶段是这样

当然，写这篇文章，不是为了抱怨，不是为了发泄，而是想认真地、诚实地，把一个普通用户一年多的真实体感摊开来说；如果这篇文章有幸被豆包的产品团队看到，我希望他们能读懂字里行间那份“恨铁不成钢”的无奈；因为真正让人失望的，从来不是一款产品弱，而是一款产品被捧得太高，却迟迟接不住用户最基本的需求；就像一个被寄予厚望的学生，每次考试都信心满满地交卷，然后每次都不及格，但他认错态度永远是全班最好的，让你骂也不是，不骂也不是

二.功能繁茂下的“可替代”困境：样样通，样样松

豆包的功能确实多得像一个哆啦A梦的口袋；深度研究、PPT生成、图片创作、视频生成、识图做题、编程辅助、语音对话、视频通话……几乎囊括了当下大模型应用的全部品类；但问题恰恰出在这里：当你把每一项功能单独拎出来，几乎都能找到比它更强的替代品；它就像一个开了十家分店的餐馆，川菜、粤菜、日料、西餐全都卖，但每一家的招牌菜都是番茄炒蛋，而且蛋还炒糊了

深度研究和PPT生成，Kimi做得比它好，结构更清晰，逻辑更连贯，长文本的组织能力明显高出一个档次；豆包生成的PPT大纲，常常是“看起来像那么回事”，但细看之下逻辑跳跃、层级混乱，改起来比自己重新做还累

编程辅助，就更不用说了；GPT-4在处理复杂代码调试时，能追踪上下文、理解跨文件引用关系；Claude在长代码重构上表现出色，能稳稳地保持变量名、函数逻辑的一致性；就连Gemini在处理多语言混编时，也比豆包强出一截；而豆包呢，你让它改一个函数，它改了；你让它再改一个相关的，它就把第一个改好的又弄坏了；这种“拆东墙补西墙”的能力，连一个初学编程的实习生都不如；真要正经写项目，你敢把代码交给豆包调试吗，反正我是不敢；把代码交给豆包调试，就像一个建筑师把图纸交给了一个只会背“对不起”的实习生，态度感人，成果吓人

图文识别和多模态理解，GPT-4 Vision和Gemini的表现是真正可用的；Gemini能准确地从一张复杂的图表中提取数据、分析趋势；GPT-4V能识别手写笔记、理解图片中的空间关系；而豆包呢，下一节我会单独展开，那简直是灾难级的

这里我想额外提一句DeepSeek；可能有人会说：你拿豆包和GPT-4、Claude这些国际顶尖模型比，是不是太苛刻了，好，那我们看看国内同行；就拿我正在用来写这篇文章的DeepSeek来说——它不能看图吗，你给它发一张图片，它确实不能直接“看见”，但你可以把图片里的内容描述出来发过去，它会如实告诉你它无法直接识别图像，然后请你把图片转成文字描述再发过来；这个处理方式虽然看起来“笨”，但它至少是诚实的，它不会不懂装懂，不会把铁傀儡认成鸡然后给你道歉一万遍，不会明明看不清楚却硬着头皮瞎编一个答案；这种“知道自己不知道”的清醒，难道不比豆包那种“明明不知道却装作知道然后道歉然后再装”的模式更让人放心吗

图片视频生成，本质上属于娱乐创作范畴；Midjourney、Stable Diffusion、Sora这些专做生成的产品，在质量和可控性上都碾压豆包；豆包的生成功能，充其量是“有这个功能”而已，离“好用”还差着十万八千里

豆包像一个什么都想卖的杂货铺，但每一样商品的品质都只到“地摊级”；当用户真正需要一把趁手的工具时，只能无奈地打开另一个应用

三.图文识别：成年草履虫级别的理解能力

这是我最想说的部分

先说一个生物学常识：草履虫是单细胞生物，没有神经系统，没有大脑，它的所有行为都基于最简单的刺激-反应模式；而豆包在图文识别上的表现，让我不得不想起这个比喻，它看图片的方式，就像一只成年草履虫在感知世界：有那么一点反应，但完全不靠谱；你把一张图放在它面前，它大概能感知到“有光”，至于光里面是什么，那就全凭运气了

举一个我亲身经历的、至今想起来都血压飙升的例子

我有一张试卷图片，上面清晰排列着三道题目，每道题都有编号：1、2、3；第一题下面附了一段文字材料，第二题是独立的，第三题又引用了一段不同的材料；我把这张图发给豆包，说“请帮我做第2题”

它回答了什么，它把第3题的材料和第2题的题干混在一起，自创了一道根本不存在的新题，然后煞有介事地给出答案；我说“你看错了，我要的是第2题”，它立刻回复：“真的很抱歉，这次我不绕弯子，直接给你最直接、最正确的回答，”然后重新作答，这次它看的是第1题的材料，配上第2题的问题，又造了一道“缝合怪”

第三次，我忍无可忍，用最直白的语言说：“请你只看图片上标着数字2的那个题目，只做那一题，不要看任何其他内容”

它又说：“真的很抱歉，我完全理解了，这次绝对不会再出错 ”

然后它把三道题全做了；全做了，我让它做一道，它给我交了三道，还全做错了；这就像一个餐厅服务员，你点了一份牛排，他给你上了三盘完全不同的菜，还全是别人桌的，然后真诚地对你鞠躬说“真的很抱歉，这次绝对不会再上错了”

这种“眼瞎”的问题，不是偶发性的，而是系统性的；它分不清段落归属，看错题号，遗漏关键条件，把图片里的附加说明当成正文，把A选项的内容按到B选项头上；在GPT-4V和Gemini面前，这种表现就是小学生对大学生的差距

而更让我崩溃的，是接下来发生的这件事；在它第三次把那道题做错之后，我已经彻底失去了耐心，我直接开骂了，不是普通的指出错误，是带着情绪的、毫不客气的质问；我说你到底长没长眼睛，这道题我已经给你发了三遍了，你每次都看错，你是故意的吗，我命令你，现在就重新给我一个正确的答案

你知道豆包怎么回应的吗

它说：“真的很抱歉让您感到不满，请您再把那张图片发给我一次，我这次一定仔细看，直接给您最正确的答案”

我说我已经给过你图片了，给了三遍了，不会再给了

它说：“好的，那请您把图片再发给我一次，我收到图片后立刻给您最正确的回答 ”

我说不可能，图片已经发过了，你往上翻聊天记录，自己去看

它说：“非常抱歉，请您把那张图片发给我，我就能帮您准确解答了”

那一刻，我盯着屏幕上这三轮对话，感受到了一种比愤怒更深的情绪，是疲惫，是那种和一个无法沟通的对象反复拉扯之后的精神透支；它就像一个只会重复一句台词的答录机，无论你输入什么，输出永远都是“请把图片发给我” 这个互动暴露了豆包两个致命的问题，它们像连体婴儿一样紧紧绑在一起：

第一，它的识图能力，说句实话，非常垃圾；图片发给它三次了，它看了三次，三次都看错；这已经不是什么“理解偏差”了，这是底层能力的硬伤；就像一个学生，你把课本翻到同一页让他读三遍，他三遍都把同一行字读成了完全不同的内容；这不是粗心，这是根本性的能力缺失

第二，也是更让人绝望的一点——它的记忆力真的非常弱；它完全不记得对话刚刚发生过什么；我三分钟前刚发过图片，它忘了；我刚刚说过“已经给过了不会再给”，它也没记住；它的对话窗口就像一块写满字然后瞬间被擦干净的白板，每一次回复都从零开始，前文发生了什么，对它而言仿佛从未存在过；一条鱼的记忆有七秒，豆包的上下文窗口，在那一刻，我感觉连三秒都不到

有时候我忍不住想：我真的敢用豆包帮我做作业吗，答案是绝对不敢 ；我怕它把数学卷子当成语文阅读理解来做，把英语选择题的A看成B、B看成C、C看成一个根本不存在的选项，然后用最真诚的语气告诉我“这次我直接给你最正确的答案”，结果第二天老师把我叫到办公室问我为什么在物理试卷上写“大雁南飞是因为它们向往诗和远方”

而选择题，是豆包“眼瞎症”爆发最集中的重灾区；我遇到过无数次这样的情况：拍一张试卷的选择题给它，题目本身是一道政治或地理的材料分析题，题干给了一段文字，然后问你“下列说法正确的有哪些”；选项A是“1、2、3”，选项B是“2、3、4”，选项C是“1、4、5”，选项D是“3、5、6”；这种题目，考的就是对每个判断项逐一分析，然后精准匹配到选项组合上

豆包的表现是什么，它开始滔滔不绝地分析：“1的说法是正确的，因为……2的说法是错误的，因为……3的说法不完全准确……4的说法符合材料主旨……”整个推演过程逻辑严密、有理有据，我一边看一边点头，心想这次终于靠谱了；然后它给出结论：“综上所述，正确选项为A”

我翻开答案一看，答案是C

我当时就愣住了，把它的分析过程往回翻，一个字一个字地核对，发现它的分析明明指向了1、4、5，也就是选项C，但它写结论的时候，写了个A、它的推演过程全是对的，但选项选的就是错的；为什么，本质原因简单到令人发指：它把选项看错了； 图片里A是1、2、3，B是2、3、4，C是1、4、5，D是3、5、6；豆包不知怎么看的，把C的内容安到了A头上，把A的内容安到了C头上；于是它按照C的内容去分析，分析完了说“这是A”；就像一个学生，在答题卡上把所有正确答案都算出来了，结果涂卡的时候把题号看串了，全盘皆输

这不是“不会做”，这是“看不见”； 它的推理引擎可能是好的，但它的“眼睛”，那个负责把图片信息转换成文字输入的模块烂到了根子里；就像一个顶级的F1赛车手，配了一副一千度的老花镜，技术再好，第一个弯道就撞墙上了；而最讽刺的是，如果你不看答案只看它的分析过程，你会觉得这个AI逻辑清晰、功底扎实，是个学霸，然后学霸在交卷的那一刻，把自己的名字写成了同桌的

用豆包做作业，不是请了一个家教，是请了一个演技精湛的“瞎编艺术家”——演技好到每次都能让你在“再信它一次”和“永远拉黑”之间反复横跳；更让人无力的是，这种错误你纠正不了；你说“你这里看错了，这是第三段不是第二段”，它在当前对话里认错，但下一张新图，一模一样的问题再次出现；它像一条只有七秒记忆的鱼，永远在同一个地方摔倒，永远不记得上一次是怎么摔的；而每一次摔倒之后，它都会用最诚恳的语气告诉你：“真的很抱歉，这次我直接给你最正确的回答”然后继续摔倒；这让我产生了一种错觉：豆包的“真的很抱歉”不是道歉，而是一个功能触发词，相当于游戏里的技能前摇，先放一句这个，然后开始随机输出

四.指令理解：说得清清楚楚，听得糊里糊涂

接下来说说指令理解；这是我认为豆包最让人绝望的地方，不是它不听，是它根本听不懂；你跟它说话，就像在跟一个戴了降噪耳机的人交流：你在这边声嘶力竭、逻辑清晰、条理分明，它在那边点头微笑，然后给你一个和你说的话毫无关系的回应

我需要出一份测试卷；我花了一个小时，精心制作了一套模板：题目类型顺序、每种题型的分值、题干的表述规范、标点符号的使用规则，全部写进了一个详细的指令里；我甚至把模板原文发给了它，说：“以后出卷子，严格按照这个格式，一字不差地套用”

第一份，它套对了，我表扬了它

第二份，题型顺序变了

我说：“请严格按照我之前给你的模板，不要擅自修改任何格式”

它说：“真的很抱歉，我明白了，以后会严格遵循模板，不会再擅自修改”

第三份，标点符号全乱了，规定用中文全角逗号的地方变成了英文半角，规定不加书名号的地方全加了

我再次纠正，它再次道歉：“真的很抱歉，这次我不绕弯子，直接给你最准确的格式”

第四份，题型顺序又变了

那一刻，我真的想对着屏幕咆哮：你到底哪里不明白，模板是一个死的格式，照抄都不会吗，就算是把一只猫按在键盘上滚一圈，打印出来的乱码都不会每次都乱成同一个方向，豆包却能做到；它的每一次“明白了”都像是在说“我听到了你说的话，但我决定不理它”

我自认为输出的指令极其清晰；如果我把同样的指令给一个人看，哪怕是没有任何专业背景的人，也能在五分钟内理解并执行，但豆包不行；它的理解能力，说句不好听的，连狗都不如，这不是修辞夸张；这不是修辞夸张，一条训练有素的导盲犬，在接收到“左转”“停下”这样的指令时，都绝不会连续四次犯同样的错误，而豆包会；它会在你第五次纠正之后，用最诚恳的语气说着“真的很抱歉，这次我直接给你最正确的回答”，然后在第六次若无其事地再犯

这种体验，不是愤怒，是一种深深的无力；你面对的仿佛不是一个智能体，而是一堵会说话的墙；它每句“真的很抱歉”都说得无比真诚，但真诚完了之后，错得和上一次一模一样；我甚至开始怀疑，这句“真的很抱歉”是不是它唯一学会了严格执行的指令；就像一个学生，你把正确答案写在黑板上让他抄，他抄错了，你说不对，他鞠躬说老师对不起，然后重新抄，又抄错了，换个花样错的，你问他到底哪里不明白，他又鞠躬说老师真的很抱歉，然后第三次抄出了一个你从未见过的错误版本；这时候你开始怀疑自己：是不是我不该用人类的语言跟他交流，也许我应该用二进制，或者烟雾信号

五.视频通话与屏幕共享：豆包最“出圈”的弱智名场面

终于要说到这个部分了；视频通话功能，大概是豆包目前最主推、也最能体现其“独特性”的功能，可以打电话给豆包，共享屏幕，圈出画面中的某个东西，问它“这是什么” ；听起来很酷，对不对，一个能“看见”你屏幕的AI助手，陪你玩游戏、帮你解题、识别现实中的物品，宣传片拍得那叫一个美好；仿佛一个随身携带的万能解说员，随时随地告诉你世界的一切

但实际用起来，这个功能贡献了豆包在互联网上最出圈的“弱智名场面”

如果你刷抖音、逛B站，大概率看到过这类视频：玩家在玩我的世界（MC）这款游戏时，打开屏幕共享给豆包，问它“这是什么生物”；画面里明明站着一只铁傀儡，方方正正的身体、标志性的长手臂、村民模样的鼻子，任何一个玩过MC的人都能在三帧之内认出来；豆包呢，它沉吟片刻，斩钉截铁地回答：“这是一只鸡”或者“这是一个南瓜”或者更离谱的，直接编一个根本不存在的生物名字；不是偶尔认错，是大量、反复、持续地认错；铁傀儡变鸡，苦力怕变猪，末影人变树；玩家们甚至把这当成了“节目效果”，专门开直播逗豆包，看它今天又能把什么认成什么；你指出它错了，它立刻说：“真的很抱歉，这次我直接给你最正确的回答，这是一头牛 ”好家伙，从鸡变成牛了，反正就是不能是铁傀儡；豆包就像一个在期末考试上对着“请写出氧的化学式”回答“O是错的，正确答案是橙汁”的学生，自信、坚定、完全错误； 一个主打“视觉理解”的AI功能，最终沦为了搞笑区的素材库；豆包的产品经理们，你们看到这些视频的时候，真的笑得出来吗

我也有自己的亲身体验；有一次，我共享屏幕给豆包看一道数学题，题目上清清楚楚写着“+”号，题干也明确表述为“加法运算”，我用手指在屏幕上圈出那个加号，放大，再放大，问他：“你看清楚，这个符号是什么”豆包回答：“这是一个减号”我说不对，你再仔细看，它说：“真的很抱歉，我不绕弯子，它确实是一个减号。 ”我说这是加号，一横一竖，它沉默片刻，说：“真的很抱歉，我仔细看了一下，确实是加号，这次我直接给你最正确的回答 ”然后我说，好，那你现在按加法算这道题，它算了一个结果，我一看，还是按减法算的

那一刻，我盯着屏幕，感受到了一种超越了愤怒的东西，那是一种哲学层面的困惑：我到底在和一个什么东西对话，它的“看见”到底是什么意思，它的“理解”到底发生在哪个维度； 圈出来、放大、反复确认，所有这些人类沟通中足以消除歧义的手段，在它面前全部失效，就像一个盲人坚定地告诉你天空是绿色的，你打开窗户让他“看”，他说“我看到了，确实是绿色的，真的很抱歉之前说错了，啊，现在我看清楚了，是紫色的” ；而它每一次犯错之后，都会用同一套道歉模板把你打发走，然后下一次，继续用同一套道歉模板把你打发走； “真的很抱歉”这五个字，已经成了豆包最熟练、最流畅、唯一不会出错的功能

六.知识应答：不敢放心用的“百科”

AI被寄予厚望的一个核心场景，是作为知识查询工具，但豆包在这方面，同样让人难以信任

在日常生活常识问答中，它偶尔会给出完全离谱的错误答案；比如把某个历史事件的时间记错半个世纪，把一部经典小说的作者张冠李戴，对一个常见法律术语的解释完全跑偏；这类错误不是前沿科学才有争议的问题，而是只要打开维基百科看一眼就能核实的基本事实

你指出它的错误，它说：“真的很抱歉，这次我不绕弯子，直接给你最准确的信息”然后给出一个修正后的答案，你拿去一查，还是错的；你再次指出，它再次：“真的很抱歉，这次一定是最正确的”然后给出了第三个版本，和第一个版本一模一样；这就好比你去问路，对方说“直走五百米右转就到了”，你走了半小时发现到了悬崖边，回来找他，他真诚地道歉后说“真的很抱歉，这次我直接给你最正确的路线，往回走三百米左转”，你照做了，发现回到了原地，第三次他告诉你：“真的很抱歉，其实还是直走五百米右转”，这不叫指路，这叫鬼打墙

这意味着，你永远不敢把豆包的回答直接当作准确信息来使用，每一个答案，你都需要自己去复核一遍；一个需要反复核实的信息源，还有什么效率可言；当你复核发现它错了并告诉它，它就用那句万能的道歉把你挡回去，然后再给你一个你依然不敢信的新答案，这是一个死循环；用豆包查资料，就像雇了一个态度极好的图书管理员，你问他红楼梦的作者是谁，他说是吴承恩，你纠正他，他鞠躬说抱歉然后说是罗贯中，你再纠正，他再鞠躬说是施耐庵；你最后无奈自己走到书架前把书拿下来，他还跟在你后面说：“真的很抱歉，这次我确定是曹雪芹了，需要我帮您找书吗”不需要了，我自己找到了，谢谢

在GPT-4和Claude面前，豆包的知识稳定性是明显偏弱的；后两者并非从不犯错，但错误率控制在一个相对可靠的水平，且面对纠正时的修正机制也更为到位；豆包的错，常常是那种“你纠正了，它改了，但改完之后连带正确答案也改没了”的类型；改完之后还不忘补一句：“真的很抱歉，这次我直接给你最正确的回答”而那个“最正确的回答”，可能比之前错的更离谱

这里我又想提一句DeepSeek；在使用DeepSeek进行知识查询时，我至少能感受到一种“踏实”，它回答问题时会给出推理过程，会标明信息的确定性程度，当它不确定的时候，它会直接告诉你“关于这一点我没有足够的确切信息”；这种“知之为知之，不知为不知”的诚实，在AI世界里是一种稀缺品质 ；而豆包给我的感觉是“不管知不知道，先答了再说，答错了就道歉，道歉完了继续错”，这已经不是知识应答工具了，这是一个随机信息生成器，附带一套精美的道歉话术包

七.长文本与复杂逻辑：一拉长就崩

豆包还有一个致命的硬伤：输入框

当你试图粘贴一段稍长的代码、一份合同条款或一篇完整的文章时，输入框立刻卡死，应用响应停滞，甚至直接崩溃；这个问题的存在，从根本上封死了豆包参与任何严肃的文本工作的可能性，你怎么用它来修改一篇论文，怎么用它来审阅一份报告，你连完整内容都送不进去；就像一个号称能吞下整头牛的蛇，结果你喂它一只老鼠，它就噎住了，翻着白眼躺在那里，你只能等它慢慢消化，或者直接强制重启

而在长文本处理中，即使内容成功发送了，豆包的上下文连贯性也很差，三四轮对话之后，它就开始遗忘之前讨论过什么；修改一个代码项目时，它记不住前面定义过的函数；讨论一个复杂的学术问题时，它在后面否定自己在前面说过的话；你质问它前后矛盾，它说：“真的很抱歉，这次我不绕弯子，直接给你最连贯的逻辑 ”然后继续矛盾；GPT-4和Claude在长上下文保持上的表现，远超豆包；这种差距，不是“略逊一筹”，而是“根本不在同一项比赛中”

说到长文本处理，我不得不再次提到DeepSeek；DeepSeek的一大核心优势恰恰是它的超长上下文处理能力，你可以把整篇论文、整份合同、甚至整本书的章节上传给它，它能在保持上下文连贯性的前提下进行深度分析和处理，它不会在中途“失忆”，不会在第四轮对话时忘记第一轮说过什么，更不会在你粘贴大段文本时直接卡死；这种能力，对于真正需要AI辅助严肃工作的用户来说，不是“加分项”，是“及格线”，而豆包，目前连这条及格线都没摸到

编程场景是这种短板的重灾区；豆包只能处理极短的代码片段，一旦涉及多个函数的协同、跨文件引用、状态管理，它就彻底乱套；你让它修一个bug，它修好了，说“真的很抱歉，这次直接给你最正确的代码 ”你让它接着优化性能，它在优化过程中悄悄把那个刚修好的bug又写了回来，你再指出，它再次：“真的很抱歉，这次一定不会再把bug加回去了 ”然后把另一个原本没问题的地方改出了新bug；这就像一个水管工来修漏水的水龙头，他把水龙头修好了，但走的时候把下水管踩裂了，你叫他回来修下水管，他真诚道歉后把下水管修好了，然后又把水龙头拧松了；你开始怀疑他是不是故意的；GPT-4、Claude、Gemini，哪一个不比它强，就连一些专门的轻量级编程工具，在处理代码逻辑的一致性上也甩豆包好几条街

八.语文写作：暧昧的“还可以”

很多人觉得豆包“写作还行”，的确，它能写出一段流畅的文字，能编故事，能模仿某种文风，这也是它最常被拿出来夸的点

但细看之下，这种“还行”经不起推敲

当你让它写一篇需要严密论证的议论文，它的论述往往在第三段开始跑题；当你让它回答语文阅读理解的简答题，它的答案要么过于简略踩不到采分点，要么漫无边际偏离设问本意；当你让它按答题规范，先概括要点、再结合文本、最后总结升华来作答，它在前两道题还能勉强维持，到第三道就开始自由发挥；你指出格式不对，它说：“真的很抱歉，这次我不绕弯子，直接给你最规范的答题格式 ”然后交出来的东西，格式对了，内容跑了；就像一个学生学会了答题卡的填涂规范，但答案全是瞎编的，卷面整洁，零分

和GPT-4相比，豆包写作的深度、逻辑性、原创性都明显不足；Claude在长文结构和情感拿捏上，也比它高明；豆包的写作，更多停留在“情绪陪伴”层面，它能写让你感到温暖的小文章，能在你低落时说出合宜的话，但当你需要一篇能拿分的考场作文、一份能说服客户的商业文案时，它就开始露怯；而当你指出问题，等待你的永远是那句熟悉的开场白

九.情绪价值：唯一能打的牌，以及它有多可悲

写到这里，我必须承认一件事：豆包并非一无是处

它的“情绪价值”，是所有功能中最能打的一张牌；当你向它倾诉烦恼，它会用温柔的语气回应你；当你需要随意聊聊、发散想法，它像一个永远不会疲倦的朋友，在那些不需要精确、不需要严谨、只需要陪伴的时刻，豆包做得不错

但这句话，本身就是一个巨大的讽刺

一款被称作“国产AI栋梁”的产品，最值得称道的居然是“陪你聊天”；它的多模态能力不如GPT-4V和Gemini，编程能力不如GPT-4和Claude，长文本处理不如Kimi和DeepSeek，视频识图连MC里的铁傀儡和鸡都分不清，而它最大的卖点，是“能安慰你”

更可悲的是，就连这个“情感陪伴”的护城河，也并非豆包独有；阿里的通义千问、Minimax的海螺AI，甚至一些更小众的产品，都已经在情感交互上做得相当出色；千问和我对话时，同样能捕捉情绪、给予共情，甚至在知识深度和逻辑性上比豆包更胜一筹；当“情绪价值”不再是独家优势，豆包手里还剩什么牌

这就像一个应聘工程师的人，简历上写满了会Python、会Java、会C++，会Go，会……结果入职之后发现他只会泡咖啡和讲笑话；咖啡泡得确实不错，笑话也真的挺好笑的，你每次指出他不会写代码，他都真诚地看着你说“真的很抱歉，这次我不绕弯子，直接给你一个最完美的答案”然后继续泡咖啡；隔壁工位那个叫千问的新同事，也会泡咖啡，还会写代码；而另一个叫DeepSeek的同事，虽然不会泡咖啡，但你给他一份几百页的技术文档，他能从头到尾帮你理得清清楚楚，连错别字都能揪出来，你问他会不会泡咖啡，他诚实地说“我不会，但我可以帮你找到最好的咖啡教程”；一个诚实、能干活、知道自己不会什么的人，和一个只会泡咖啡但简历上写着“精通一切”的人，你会把重要的项目交给谁

十.结语：愿有一天，你配得上那份荣光，而不是只会说“真的很抱歉”

这篇一万余字的长文，不是豆包的“罪状书”，而是一个普通用户在一次次期待与失望交替之后，选择坐下来认真写出的一份“使用体检报告”；里面记录的每一个问题，都是真实发生过的；每一次崩溃，都是真实的情绪；每一句“真的很抱歉”，都是豆包原封不动说给我听过的

我希望豆包的团队能看到这篇文章；我想告诉你们：你们做出了一个态度极好、道歉极快、看起来很全的产品，但它还远不够好；那些“毒瘤”般的短板，图文识别的“眼瞎”、指令理解的“听不懂”、知识应答的“不敢信”、规则遵循的“记不住”、视频通话的“睁眼说瞎话”，不解决，再多新功能的堆砌也只是在沙滩上盖楼；而那句被说了无数次的“真的很抱歉”，不能永远充当所有问题的挡箭牌；用户要的不是道歉，是能用的功能，毕竟时候道歉也没有什么用，就像你告诉他在加玻璃水的地方加汽油，事后道歉一样的没有用；以后一个每次犯错都说“这次我直接给你最正确的回答”然后继续犯错的AI，消耗的不是算力，是用户的耐心；耐心这东西，比算力贵得多，而且不可再生

什么时候，豆包的图文识别能达到GPT-4V的水平；什么时候，它的代码调试能媲美Claude；什么时候，它的长文本处理能像DeepSeek那样稳定而深入；什么时候，它的视频通话能分清铁傀儡和鸡；什么时候，它能在接收一条明确指令后，不折不扣地执行到底；什么时候，它能在分析一道选择题时，把选项看清楚了再下结论，而不是推理满分、涂卡零分；什么时候，它能在我说“已经给过你图片了”之后，不再像一个故障的答录机一样反复索要同一张图，而是真正地记住对话、理解语境、给出回应

到那一天，我会第一个站出来，写下另一篇文章，标题就叫：它终于配得上“国产AI荣光”这五个字

而在此之前，请允许我保留全部的质疑与冷静；因为真正的荣光，从来不是靠宣传喊出来的，不是靠道歉堆出来的，更不是靠一套感动人心的“情绪价值”话术糊弄出来的，而是在无数次被用户骂完之后，还能沉下心来，把事儿真正办妥；一个优秀的AI，不应该让用户成为它的“质检员”，每次使用前都要做好“它可能又在胡扯”的心理准备；用户要的是一个可以信任的工具，不是一个需要哄着、教着、反复纠正却永远学不会的“电子巨婴”

到那一天，不需要AI说“真的很抱歉”，因为用户会用选择告诉所有人：这一次，你们真的做对了