ROUGE 和 BLEU 是用来评测大模型(尤其是自然语言处理模型)文本生成质量的两个常见指标,主要用于衡量模型生成的文本与参考答案(ground truth)的相似度。
1. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
适用场景:常用于 文本摘要任务,衡量模型生成的文本与参考摘要的覆盖程度。
核心概念:基于 n-gram(短语片段)匹配,主要关注 召回率(Recall),即生成的文本能多大程度上覆盖参考文本的关键内容。
常见的 ROUGE 变体:
- ROUGE-N:计算 n-gram 的匹配率(常用 ROUGE-1、ROUGE-2)
- ROUGE-L:基于最长公共子序列(LCS),更关注语序
- ROUGE-W:对 LCS 加权,考虑更长的匹配
- ROUGE-S:跳跃 n-gram 匹配,不要求连续出现
示例: 假设参考文本是:
"人工智能正在改变世界。"
模型生成:
"AI 正在改变整个世界。"
如果用 ROUGE-1(即按单词匹配),那么匹配到的词有:"正在"、"改变"、"世界",匹配率是 3/4 = 0.75。
2. BLEU(Bilingual Evaluation Understudy)
适用场景:主要用于 机器翻译任务,衡量模型输出与标准翻译的相似度。
核心概念:基于 n-gram 精确匹配,主要关注 精确度(Precision),即生成文本中有多少 n-gram 片段出现在参考文本里。
计算方式:
- 统计 n-gram 的匹配率(常用 BLEU-1、BLEU-2、BLEU-4)
- 引入 BP(Brevity Penalty,长度惩罚),防止模型只输出短文本拿高分
示例: 参考翻译:
"The cat is on the mat."
模型翻译:
"The cat is on mat."
如果用 BLEU-1(即按单词匹配),匹配到的单词有:"The"、"cat"、"is"、"on"、"mat",匹配率 5/5 = 1。