RAG = 各类文档预处理 + Query理解+文档召回 + LLM + 全链路评测
【四】LLM问答(溯源,重复、幻觉、通顺、格式美化)
问题描述:
用户Query:
问题:为什么这个城市被选为首府?
参考文献:
【1】选择首府城市的原因因州而异。在某些情况下,州官员希望首府位于他们州的地理中心。密苏里州的杰斐逊城和南达科他州的皮尔分别因这个原因被选为首府。在其他情况下,首府的位置可能是由于其相对于其他城市的地理位置而被选中。佛罗里达州在1824年选择塔拉哈西作为其首府,因为它位于当时该州最大的两个城市圣奥古斯丁和彭萨科拉之间的中点。有些首府位置被选中是因为它们是贸易和交通的中心。这就是为什么位于哈德逊河附近的奥尔巴尼被选为纽约州的首府。
【2】当安卡拉、伯尔尼、巴西利亚、堪培拉、马德里、渥太华和华盛顿成为首府城市时,选择或建立一个“中立”的首府城市,一个不受地区或政治身份束缚的城市,旨在代表新州的团结。有时,新的首府城市的选址是为了终止各种实体之间的实际或潜在争执,如巴西利亚、堪培拉、渥太华、华盛顿、惠灵顿和马那瓜的情况。
【3】不论一个国家如何决定其首都,那座城市都成为了国家身份的重要象征。虽然它是居民的家园和游客参观的地方,但它也是被选为代表整个国家向世界展示的城市。
【4】州首府之所以重要,是因为它们容纳了各自州的政府,并为州立法机构提供了会议地点。许多会议建筑被称为国会大厦,这与首府有所不同,因为国会大厦指的是建筑,而首府总是指代一个城市。城市被选为首府的原因各不相同,有时是因为它们位于州的中心,如杰斐逊城,或者是商业中心,如奥尔巴尼。如今,许多首府并不是各自州最大的城市,可能会被更大的城市所掩盖,但它们保留了重要的历史价值。
【5】8. “首府城市:它们是如何被选择的,它们代表什么?” BBC新闻。2017年12月6日。存档于2022年3月23日。检索于2022年6月26日。
LLM答案
选择城市作为首府的原因因州而异。在某些情况下,州官员希望首府位于他们州的地理中心[1],而在其他情况下,首府的位置可能是因为其相对于其他城市的地理位置而被选中,比如佛罗里达州的首府圣奥古斯丁[1]。有些首府城市被选中是因为它们是贸易和交通的中心[1],或者是为了代表新州的团结[1][2][4]。在某些情况下,新的首府城市的选址是为了终止各种实体之间的实际或潜在争执[1][2]。城市被选为首府是因为它们容纳了各自州的政府,并且为州立法机构提供了会议地点[1][4]。如今,许多首府并不是各自州最大的城市,可能会被更大的城市所掩盖,但它们保留了重要的历史价值[4]。首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5]
上述case中,给定用户Query和参考文献后,一般产品落地时,需要LLM给带有溯源的答案,增加答案的可信度,同时用户想进一步了解的话,可以追踪到答案的出处,提升用户体验。
但是上述case的"LLM答案“还存在以下问题:
1、 溯源过多:可以合并成一个溯源标记
选择城市作为首府的原因因州而异。在某些情况下,州官员希望首都位于他们州的地理中心[1],而在其他情况下,首府的位置可能是因为其相对于其他城市的地理位置而被选中[1]。有些首府城市被选中是因为它们是贸易和交通的中心[1]
2、溯源错误:这句话的正确溯源是[3]
首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5]
3、答案重复:同一句话重复多次
首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5]
4、出现幻觉:佛罗里达州的首府是塔拉哈西
而在其他情况下,首府的位置可能是因为其相对于其他城市的地理位置而被选中,比如佛罗里达州的首府圣奥古斯丁[1]
5、答案不通顺:答案句子之间衔接待改进
在某些情况下,州官员希望首府......,而在其他情况下,首府的位置可能.....。在某些情况下,新的首府城市的选址是为.....
6、格式不美化:建议答案时分点/分条展示
选择城市作为首府的原因因州而异:
- xxxx
- xxxx
- xxxx
7、打字机效果:产品落地时一般是要求流式输出,提升用户体验
8、答案不正确:这一句(首都)与Query(首府)匹配度不高
首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5],首都城市还代表整个国家向世界展示[5]
参考方案:
- 溯源过多、溯源错误、格式美化这块把sft的数据清洗好,高质量
- 答案不正确、不通顺、幻觉,sft之后,试试强化学习,目前DPO蛮好使
- 重复这个问题,比较难解决,千亿的大模型重复输出也蛮多,微调的开源小参数模型很难避免,调调惩罚参数,开采样试试
- 打字机效果采用流式输出
参考文献:
2、WebGLM