大模型提升英国政务聊天机器人准确性但响应变慢

3 阅读2分钟

英国政府数字服务部门(GDS)表示,更强大的大语言模型正在帮助提升其正在开发的政府聊天机器人的准确性,但也导致了响应速度变慢。

GDS 已对其 GOV.UK Chat 服务进行了两次公开试点。第一次于 2024 年底在 GOV.UK 网站的少数页面上进行,第二次于 2025 年秋季在 GOV.UK 应用程序中进行。GDS 估计,这些试点显示答案准确率从 76% 提高到了 90%,这部分归功于大语言模型的进步,部分归功于其自身在数据科学方面的工作。

GDS 曾在 2023 年对该聊天机器人进行过一次私人试点,后来表示其准确性未达到要求水平,并且在少数情况下出现了明显错误。

GDS 认为,该聊天机器人仅使用 GOV.UK 网站上的资料并包含来源链接,在回答与政府相关的问题时,其得分高于大众市场的人工智能助手。开放数据研究所最近的一项研究测试了 11 个大语言模型关于 GOV.UK 材料的问题,发现它们经常含糊其辞、超出官方信息范围或犯错。

然而,GDS 的研究发现,用户希望获得比该服务平均 10.7 秒响应时间更快的答案。

GDS 工作人员在博客文章中写道:“今年,最新版本的前沿模型比以前的版本更强大,但也更慢。对我们来说,准确性是最重要的,因此 GOV.UK Chat 的响应速度比我们理想中的要慢。”

作为回应,GDS 正在考虑拆分答案,让聊天机器人在处理剩余部分的同时提供第一部分,但工作人员指出,这需要大量的工作,包括安全护栏方面的工作。

公开试点包括 508 次试图欺骗该服务提供不当或有害响应的尝试,但均未成功。根据博客文章,该系统使用某机构的 Bedrock 平台和 Anthropic 的 Claude 模型,在应对需求方面表现出色。

根据试点的结果,当用户提出模棱两可的问题时,聊天机器人现在可以要求澄清,而不是拒绝提供答案。未来,当用户希望就自己的具体情况与某人交谈时,它还可能将查询转给特定的政府部门。

GDS 计划将聊天机器人添加到其 GOV.UK 应用程序中,然后在今年晚些时候致力于将该服务部署到庞大的 GOV.UK 网站上。FINISHED