英国政府聊天机器人因LLM升级准确率提升但响应变慢英国政府数字服务部门通过两次公开试点发现，其基于大型语言模型的聊天机器

英国政府数字服务部门（GDS）的数据显示，更强大的大型语言模型（LLMs）正在帮助其开发中的聊天机器人提高准确率，但也导致其响应速度变慢。

GDS 已对其 GOV.UK Chat 服务进行了两次公开试点。第一次于2024年底在 GOV.UK 网站的少数页面上进行，第二次于2025年秋季在 GOV.UK 应用程序中进行。据其估算，这两次试点显示答案的准确率从76%提高到了90%，这部分归功于大型语言模型的进步，部分归功于其自身在数据科学方面的工作。

该部门此前曾在2023年对该聊天机器人进行过一次私下试点，后来表示那次试点未达到所需的准确率水平，并在少数情况下出现了明显错误。

GDS 认为，该聊天机器人（仅使用 GOV.UK 网站上的材料并包含指向源材料的链接）在回答与政府相关的问题时，其得分高于大众市场的人工智能助手。开放数据研究所最近的一项研究测试了11个大型语言模型，使用关于 GOV.UK 材料的问题进行提问，发现它们经常含糊其辞、超出官方信息范围或出错。

然而，GDS 的研究发现，用户希望答案比该服务10.7秒的平均响应时间更快。

GDS 的工作人员 Sam Dub 和 Sharon McDonald 在一篇 GOV.UK 博客文章中写道：“今年，最新版本的前沿模型比以前的版本更强大，但也更慢。”“对我们来说，准确性是最重要的，因此 GOV.UK Chat 的响应速度比我们理想中的要慢。”

作为回应，GDS 正在考虑将答案拆分，让聊天机器人先提供第一部分，同时生成其余部分，不过 Dub 和 McDonald 指出，这需要大量工作，包括安全护栏方面的工作。

根据该博客，公开试点包括了508次试图诱使该服务提供不适当或有害回复的尝试，这些尝试均未成功，并且该系统（使用了某机构的 Bedrock 平台和 Anthropic 的 Claude 模型）很好地应对了需求。

由于试点结果，当用户提出模棱两可的问题时，该聊天机器人现在可以请求澄清，而不是拒绝提供答案。未来，当用户希望就自身情况与某人交谈时，它还可能将查询转给特定的政府部门。

GDS 计划将该聊天机器人添加到其 GOV.UK 应用程序中，然后在今年晚些时候着手将该服务推广到庞大的 GOV.UK 网站上。FINISHED