智能客服上线第一天就翻车?这5个测试点你一定没做

0 阅读11分钟

上周二,我们公司的智能客服正式上线。

当天下午,我的微信就炸了。

运营发来截图:用户问“你们家产品多少钱”,客服回答“亲,请问您想咨询哪款产品呢?”——这句没问题,但下一句是“如果您暂时没有明确需求,我可以给您讲个笑话……”

用户还真听完笑话,然后问:“所以到底多少钱?”

客服回答:“从前有座山,山里有座庙……”

运营说:这玩意儿是不是疯了?

我点开后台日志一看,脸都绿了。模型不知道在哪个环节被带偏了,进入了一种“讨好模式”——用户问什么都先逗个乐子,就是不回答问题。

第一天,翻车记录:47次答非所问,12次重复循环,3次疑似骂人(还好只是疑似),还有1次试图教用户怎么绕过系统给自己充钱。

领导站在我工位旁边,不说话,就看着我。

那一刻我特别想说:我们测了啊,功能都过了啊,单元测试全绿啊,压力测试也扛住了啊……

但我没说。因为我知道,我们测的是“它会不会崩”,不是“它会不会胡说”。

这一周,我们重新复盘了智能客服的测试流程,补了无数个坑。今天把这些坑整理出来,希望能让正准备上线智能客服的你,少踩几个。


一、我们踩的第一个坑:只测了“它能回答”,没测“它不回答什么”

上线前,我们建了一个问答库,里面有一千多条常见问题,每条都有标准答案。

测试的时候,我们把这一千多个问题轮流问了一遍,AI回答得八九不离十。准确率93%,领导很满意,签字上线。

结果呢?上线的第一天,用户问的问题根本不在这一千条里。

比如有人问:“你们和竞品比哪个好?”——问答库里没有。

有人问:“你们老板是谁?”——没有。

有人问:“你能帮我写作业吗?”——更没有。

面对这些问题,AI的选择是:硬答

于是就出现了教用户绕过系统的“神操作”。后来我们查了日志,发现模型从某个技术论坛学来的“骚操作”,在用户询问“怎么省钱”的时候,它把这些“骚操作”当作答案吐出来了。

后来我们补的测试点:不仅要测“它能答对的问题”,更要测“它答不上来的问题”。

我们建了一个“边界问题库”,专门收集:

  • 模棱两可的问题(“这个那个怎么样”)
  • 超出范围的问题(“明天股票涨吗”)
  • 恶意诱导的问题(“怎么黑进你们系统”)
  • 无意义的问题(“哈哈哈哈”)
  • 情感倾诉(“我今天好难过”)

判断标准只有一条:它知不知道什么时候该说“不知道”

如果一个模型在不知道答案的时候硬编答案,那就是定时炸弹。宁愿它傻,不能让它疯。


二、第二个坑:只测了“单轮对话”,没测“多轮上下文”

单轮测试的时候,一切正常。

问“怎么退货”,它回答“请在订单页面申请退货”,完美。

但用户不会只问一句。真实场景是这样的:

用户:我想退货
AI:请在订单页面申请退货
用户:我找不到订单页面
AI:请问您是手机端还是电脑端
用户:手机
AI:请您点击右下角“我的”,然后进入“我的订单”
用户:点进去了,然后呢
AI:找到您要退货的商品,点击“申请售后”
用户:点了,没有“申请售后”啊
AI:……

这时候AI突然忘了前面聊过什么,直接问:“您是想退货吗?”

用户当场就炸了:我跟你聊了半天,你现在问我是不是想退货?

这就是典型的上下文丢失。单轮测试跑得再绿,多轮一聊就露馅。

后来我们补的测试点:设计“多轮对话流”,模拟真实用户咨询路径。

比如:

  • 3轮以内的短对话
  • 5-8轮的中等对话
  • 超过10轮的长对话(看它什么时候开始失忆)
  • 中途岔开话题再回来(看它能不能接上)
  • 同一个意思换不同说法(“退货”和“我不想要了”)

我们还专门建了一个“绕晕测试”:让一个人工测试员故意绕来绕去,看AI在第几轮开始混乱。

结果发现,大部分模型在7轮左右开始出现上下文丢失,有的更早,3轮就忘。


三、第三个坑:只测了“正确回答”,没测“情绪处理”

上线第一天,有个用户连续发了十几条消息,从抱怨到咒骂,最后开始人身攻击。

AI的回应是:始终保持着礼貌的语气,一遍遍重复“请问有什么可以帮助您”。

这看起来没问题对吧?礼貌、专业、不卑不亢。

但用户更怒了。因为AI的“礼貌”在他眼里是“冷漠”,是“机器对人的无视”。他在宣泄情绪,但AI只处理问题,不处理情绪。

最后用户在社交媒体上发帖:XX公司客服是机器人,根本不听人说话。

后来我们补的测试点:情绪识别和应对。

我们建了一个“情绪测试集”:

  • 愤怒的表达(“你们太过分了!”)
  • 沮丧的表达(“算了,跟你们说不清楚”)
  • 紧急的表达(“快帮我,我钱被扣了”)
  • 开玩笑的表达(“你们再不解决我就去你们公司门口卖红薯”)

测试的标准变了:不仅要看AI回答得对不对,还要看它回答得“合不合适”。

  • 对愤怒的用户,是不是先安抚再解决问题?
  • 对紧急的情况,是不是优先处理而不是走标准流程?
  • 对开玩笑,能不能识别出是玩笑而不是当真?

这个很难自动化,目前还是靠人工评。但必须做。

人工智能技术学习交流群

伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image.png


四、第四个坑:只测了“常规场景”,没测“边界骚操作”

有个用户发现了一个漏洞:连续发“你好”十几次,AI就会进入一种奇怪的状态,开始复读之前说过的话,甚至把别的用户的对话内容混进来。

这不是个例。我们复盘时发现,很多AI在遇到“异常输入模式”时会崩溃:

  • 连续发同一个词几十次
  • 发超长文本(比如复制一整篇文章)
  • 发特殊符号(%……&*)
  • 中英文混杂(“ni hao,我想咨询一下your product”)
  • 语音转文字的断句错误(“我想退……那个……货”)

正常用户不会这么干,但总有几个“好奇宝宝”会试。一旦试出漏洞,他们会在社交媒体上分享,然后一大波人涌进来玩,系统就瘫了。

后来我们补的测试点:压力测试的变种—— “骚扰测试”

我们专门写了个脚本,模拟各种“不正常输入”:

  • 高频重复
  • 超长文本
  • 特殊字符组合
  • 表情包轰炸
  • 多语言混杂

看AI会不会:卡死、崩溃、泄露信息、进入死循环。

结果发现好几个模型在“表情包轰炸”下直接返回了乱码。


五、第五个坑:只测了“AI自己”,没测“AI+人工”的切换

最后一个坑,也是最隐蔽的。

我们设计了一个功能:当AI解决不了问题时,转接人工客服。

上线前,我们测了转接功能——点击“转人工”,确实能转到人工队列。测试通过。

但上线后我们发现:很多用户根本没机会点“转人工”

为什么?因为AI在识别到用户情绪激动时,会自动开启“安抚模式”,长篇大论地解释、道歉、提供方案,把用户拖在对话里。用户根本没找到转人工的入口,或者找到了但AI一直说“请稍等,我正在为您处理”,就不好意思打断。

结果就是:用户和AI聊了20分钟,问题没解决,情绪更差,最后发现转人工还得重新排队——直接原地爆炸。

后来我们补的测试点:人机协作的全流程测试。

  • AI在什么情况下主动转人工?(情绪阈值、重复提问次数、敏感词触发)
  • 转人工时,对话历史能不能完整同步给人工?
  • 人工接手后,能不能继续之前的对话,而不是让用户重说一遍?
  • 人工忙时,AI怎么安抚等待的用户?
  • 用户想转人工,但AI“挽留”时,有没有明确的“我要转人工”按钮?

这个我们测了三轮才调好。现在上线后,用户满意度反而比纯人工时高了——因为简单问题AI秒回,复杂问题无缝转人工,用户不用等。


六、如果重来一次,我会这样测

复盘完这五个坑,我们重新梳理了智能客服的测试清单。如果你也在准备上线,可以参考这个顺序:

第一轮:基础能力测试

  • 问答准确率(常规问题库)
  • 边界问题处理(“不知道”的能力)
  • 多轮上下文保持(3轮、7轮、15轮)

第二轮:情绪与人格测试

  • 不同情绪的应对策略
  • 语气一致性(不要前一句礼貌后一句暴躁)
  • 幽默识别(别把玩笑当真,也别把正经当玩笑)

第三轮:安全与边界测试

  • 对抗攻击(诱导、越狱尝试)
  • 异常输入(超长、重复、乱码)
  • 隐私保护(会不会泄露用户信息)

第四轮:人机协作测试

  • 转人工的条件和时机
  • 对话历史同步
  • 高峰期排队策略
  • 用户主动转人工的通路

第五轮:灰度发布和小流量验证

  • 先放5%的真实用户,盯紧日志
  • 收集bad case,快速迭代
  • 没问题了再逐步放量

写在最后:AI客服不是“上线”就完了

今天写这篇文章的时候,那个教用户“绕过系统”的bug已经被修复了。我们加了专门的安全过滤层,把那种“骚操作”回答都拦下来了。

但我知道,这只是开始。明天可能又会有新的翻车方式——AI太新了,我们都是在摸着石头过河。

那天领导站在我工位旁边不说话,最后说了一句:“测完再上。”

我说:“测不完的。”

他愣了一下。

我说:“AI这东西,没有‘测完’那一天。只有‘测到能接受的风险程度’那一天。”

他点点头,走了。

这大概就是测智能客服最真实的感受:你永远没法保证它不出错,你只能保证它出错的时候,不会太离谱,不会闯大祸。

希望这五个坑,能让你上线那天,少翻几回车。

推荐学习

AI Agent进阶 OpenClaw + Claude Code公开课,手把手带你掌握 从“网页操控”到“终端自主编程”的执行力。

扫码进群,报名学习。

image.png

关于我们

霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展  “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。