英国政府数字服务部门(GDS)的数据显示,更强大的大型语言模型(LLMs)正在帮助其开发中的聊天机器人提高准确率,但也导致其响应速度变慢。
GDS 已对其 GOV.UK Chat 服务进行了两次公开试点。第一次于2024年底在 GOV.UK 网站的少数页面上进行,第二次于2025年秋季在 GOV.UK 应用程序中进行。据其估算,这两次试点显示答案的准确率从76%提高到了90%,这部分归功于大型语言模型的进步,部分归功于其自身在数据科学方面的工作。
该部门此前曾在2023年对该聊天机器人进行过一次私下试点,后来表示那次试点未达到所需的准确率水平,并在少数情况下出现了明显错误。
GDS 认为,该聊天机器人(仅使用 GOV.UK 网站上的材料并包含指向源材料的链接)在回答与政府相关的问题时,其得分高于大众市场的人工智能助手。开放数据研究所最近的一项研究测试了11个大型语言模型,使用关于 GOV.UK 材料的问题进行提问,发现它们经常含糊其辞、超出官方信息范围或出错。
然而,GDS 的研究发现,用户希望答案比该服务10.7秒的平均响应时间更快。
GDS 的工作人员 Sam Dub 和 Sharon McDonald 在一篇 GOV.UK 博客文章中写道:“今年,最新版本的前沿模型比以前的版本更强大,但也更慢。”“对我们来说,准确性是最重要的,因此 GOV.UK Chat 的响应速度比我们理想中的要慢。”
作为回应,GDS 正在考虑将答案拆分,让聊天机器人先提供第一部分,同时生成其余部分,不过 Dub 和 McDonald 指出,这需要大量工作,包括安全护栏方面的工作。
根据该博客,公开试点包括了508次试图诱使该服务提供不适当或有害回复的尝试,这些尝试均未成功,并且该系统(使用了某机构的 Bedrock 平台和 Anthropic 的 Claude 模型)很好地应对了需求。
由于试点结果,当用户提出模棱两可的问题时,该聊天机器人现在可以请求澄清,而不是拒绝提供答案。未来,当用户希望就自身情况与某人交谈时,它还可能将查询转给特定的政府部门。
GDS 计划将该聊天机器人添加到其 GOV.UK 应用程序中,然后在今年晚些时候着手将该服务推广到庞大的 GOV.UK 网站上。FINISHED