一文搞懂大语言模型中的常见评估指标
术语(Terminology)
- N-gram: N-gram 是一种文本处理技术,它将连续的 n 个词或字符从文本中提取出来
- Unigram: 单个词语,比如句子 "The dog lay on the rug as I sipped a cup of tea." 中的 "The" 或 "dog"
- Bigram: 两个连续的词语,比如 "The dog" 或 "dog lay"
准确率(Accuracy)
准确率 (Accuracy): 衡量模型正确预测的比例。不过,准确率可能无法全面反映生成式任务(如文本摘要或翻译)的质量,因为它只判断预测是否完全正确,而忽略了语义相似性 。
ROUGE
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一种主要用于文本摘要任务的评估指标 。它通过比较模型生成的摘要和人工撰写的参考摘要,来衡量它们的重叠程度 。常见的 ROUGE 类型包括:ROUGE-1,ROUGE-2,ROUGE-L, ROUGE-clipping。
ROUGE-1
ROUGE-1: 基于 unigram(一元词)的匹配 。它计算模型生成的摘要和参考摘要中unigram 的重叠度。
ROUGE-2
ROUGE-2: 基于 bigram(二元词)的匹配 。它通过比较bigram 的重叠度来衡量模型生成摘要的流畅性和连贯性。
ROUGE-L
ROUGE-L: 基于**最长公共子序列(Longest Common Subsequence, LCS)**的匹配 。ROUGE-L 不要求匹配的词语必须连续,只要它们在两个文本中出现的顺序相同即可,这使得它更能衡量句子级别的流畅性和结构。
ROUGE-clipping
ROUGE-clipping: 这是一个修改版的 ROUGE-1 精准率(Precision)计算方法,用于避免模型重复生成参考摘要中的词语来虚高得分 。
BLEU Score
BLEU(Bilingual Evaluation Understudy)是一种用于评估机器翻译质量的指标 。它通过将机器翻译的输出与一个或多个人工翻译的参考文本进行比较来打分 。BLEU 分数主要关注“精准率”(Precision),即机器翻译的输出中有多少词语或短语出现在了参考译文中 。
BLEU 的特点
- n-gram 精准率: BLEU 分数是不同 n-gram 尺寸(通常从 1-gram 到 4-gram)的精准率的加权平均值 。
- 流畅度: 较高的 BLEU 分数通常表明翻译在用词和句子结构上与人工翻译非常接近,因此也具有较高的流畅度。
- 分数范围: BLEU 分数介于 0 到 1 之间,分数越高表示翻译质量越好 。
其他指标:BERTScore和MoverScore
虽然 ROUGE 和 BLEU 是经典的评估指标,但它们也存在局限性:它们主要基于词语重叠度,而无法真正理解语义。例如,"I am very happy" 和 "I am incredibly joyful" 在 BLEU 和 ROUGE 上的得分可能很低,但它们的语义是高度相似的。因此,现代 NLP 领域引入了更多基于语义的评估指标:
- BERTScore: 相比于简单的词语匹配,BERTScore使用预训练的BERT模型来计算生成文本和参考文本中每个词语的语义相似度,然后聚合这些相似度得分。这使得它能够更好地捕捉同义词和近义词,从而更准确地评估文本质量。
- MoverScore: 另一种基于词嵌入的评估方法。它将句子中的每个词都表示为向量,然后计算生成文本的词向量集合到参考文本词向量集合的“移动距离”(earth mover's distance),距离越短,语义越相似。
这些更先进的指标能够提供更细致、更贴近人类感知的评估结果,尤其是在处理那些语义相近但词语不同的生成文本时。