动手学习大模型开发---随笔5

2024-04-26 78 阅读2分钟

这一章是验证评估。开发完了之后开始测试检验了。测试就是问它问题，看回不回复想要的结果，要这样问好多次。

取一些简单样例，开始测试，看看能不能得到结果。碰到不好的例子，加进验证集。加多了就有一定样例了。
人工评估：初期数据少的时候这样弄可以，简单直观。有一些准则：

量化评估。对于每次提问的回答要打分，是每个回答打分哦，是满分100还是满分5分随你，打分才好分辨哪次回答好哪次回答坏。
多维评估。多维就是在不同方向上打分，个人知识库问答这个项目就要考虑答案与问题是否一致、语句是否通顺、答案是否真实等方向。每个方向都打个分。

简单自动评估：许多题目没标准答案，很难判断回答的好坏。我们想办法改善这个问题。用简单自动评估来改善的话，这介绍了两个方法：

构造客观题。能变成选择题的变成选择题。只是单选还不太行，因为大模型可能废话一堆，还不稳定。弄个多选，选对一个选项加1分，选错一个减1分，不选分不变，这样鼓励大模型不会的不写，比瞎写好。
计算答案相似度：弄个标准答案，生成的越靠近它说明越好。用bleu打分函数来判断多靠近它。

让大模型来评估。好家伙，把多个维度打分啊等等要求写给另一个大模型，弄出个prompt判断的助手，让它来评估这个大模型回答的怎么样。
RAG分检索和生成两个部分。检索就是把你的话送到数据库美化一下再给大模型，生成就是让大模型生成答案。

生成部分主要看prompt，因为大模型是大厂弄好的，你选定了也没法变，一般prompt优化感觉得自己想，看每次回答的内容，再改prompt。
检索这块，只列一些可能的问题。说不定是在句子中间切的不对，把一个词切成两半了，