这一章是验证评估。开发完了之后开始测试检验了。测试就是问它问题,看回不回复想要的结果,要这样问好多次。
- 取一些简单样例,开始测试,看看能不能得到结果。碰到不好的例子,加进验证集。加多了就有一定样例了。
- 人工评估:初期数据少的时候这样弄可以,简单直观。有一些准则:
- 量化评估。对于每次提问的回答要打分,是每个回答打分哦,是满分100还是满分5分随你,打分才好分辨哪次回答好哪次回答坏。
- 多维评估。多维就是在不同方向上打分,个人知识库问答这个项目就要考虑答案与问题是否一致、语句是否通顺、答案是否真实等方向。每个方向都打个分。
- 简单自动评估:许多题目没标准答案,很难判断回答的好坏。我们想办法改善这个问题。用简单自动评估来改善的话,这介绍了两个方法:
- 构造客观题。能变成选择题的变成选择题。只是单选还不太行,因为大模型可能废话一堆,还不稳定。弄个多选,选对一个选项加1分,选错一个减1分,不选分不变,这样鼓励大模型不会的不写,比瞎写好。
- 计算答案相似度:弄个标准答案,生成的越靠近它说明越好。用bleu打分函数来判断多靠近它。
- 让大模型来评估。好家伙,把多个维度打分啊等等要求写给另一个大模型,弄出个prompt判断的助手,让它来评估这个大模型回答的怎么样。
- RAG分检索和生成两个部分。检索就是把你的话送到数据库美化一下再给大模型,生成就是让大模型生成答案。
- 生成部分主要看prompt,因为大模型是大厂弄好的,你选定了也没法变,一般prompt优化感觉得自己想,看每次回答的内容,再改prompt。
- 检索这块,只列一些可能的问题。说不定是在句子中间切的不对,把一个词切成两半了,