大白话系列:什么是 大模型评测中的ROUGE和BLEU?

401 阅读1分钟

ROUGE 和 BLEU 是用来评测大模型(尤其是自然语言处理模型)文本生成质量的两个常见指标,主要用于衡量模型生成的文本与参考答案(ground truth)的相似度。

1. ROUGE(Recall-Oriented Understudy for Gisting Evaluation)

适用场景:常用于 文本摘要任务,衡量模型生成的文本与参考摘要的覆盖程度。

核心概念:基于 n-gram(短语片段)匹配,主要关注 召回率(Recall),即生成的文本能多大程度上覆盖参考文本的关键内容。

常见的 ROUGE 变体

  • ROUGE-N:计算 n-gram 的匹配率(常用 ROUGE-1、ROUGE-2)
  • ROUGE-L:基于最长公共子序列(LCS),更关注语序
  • ROUGE-W:对 LCS 加权,考虑更长的匹配
  • ROUGE-S:跳跃 n-gram 匹配,不要求连续出现

示例: 假设参考文本是:

"人工智能正在改变世界。"

模型生成:

"AI 正在改变整个世界。"

如果用 ROUGE-1(即按单词匹配),那么匹配到的词有:"正在"、"改变"、"世界",匹配率是 3/4 = 0.75

2. BLEU(Bilingual Evaluation Understudy)

适用场景:主要用于 机器翻译任务,衡量模型输出与标准翻译的相似度。

核心概念:基于 n-gram 精确匹配,主要关注 精确度(Precision),即生成文本中有多少 n-gram 片段出现在参考文本里。

计算方式

  • 统计 n-gram 的匹配率(常用 BLEU-1、BLEU-2、BLEU-4)
  • 引入 BP(Brevity Penalty,长度惩罚),防止模型只输出短文本拿高分

示例: 参考翻译:

"The cat is on the mat."

模型翻译:

"The cat is on mat."

如果用 BLEU-1(即按单词匹配),匹配到的单词有:"The"、"cat"、"is"、"on"、"mat",匹配率 5/5 = 1