LLaMa3
文本生成模型评估方法:
- 客观评估
- 主观评估
OpenCompass: 采用客观评测与主观评估结合的方法。
分类任务中,有客观标准。但生成式任务重,客观标准没有。需要客观加主观综合一起。
医学,法律类的,需要回答标准,不允许扩展,需要偏向客观标准。 有些娱乐性的场景,需要偏向主观标准。
llama预训练的不是中文的,最后容易输出结果也会嵌入一些英文。英文偏向。
召回率,精确率
LLaMa3
文本生成模型评估方法:
OpenCompass: 采用客观评测与主观评估结合的方法。
分类任务中,有客观标准。但生成式任务重,客观标准没有。需要客观加主观综合一起。
医学,法律类的,需要回答标准,不允许扩展,需要偏向客观标准。 有些娱乐性的场景,需要偏向主观标准。
llama预训练的不是中文的,最后容易输出结果也会嵌入一些英文。英文偏向。
召回率,精确率