大白话系列：什么是大模型评测中的ROUGE和BLEU？ROUGE 和 BLEU 是用来评测大模型（尤其是自然语言处理模

ROUGE 和 BLEU 是用来评测大模型（尤其是自然语言处理模型）文本生成质量的两个常见指标，主要用于衡量模型生成的文本与参考答案（ground truth）的相似度。

适用场景：常用于 文本摘要任务，衡量模型生成的文本与参考摘要的覆盖程度。

核心概念：基于 n-gram（短语片段）匹配，主要关注 召回率（Recall），即生成的文本能多大程度上覆盖参考文本的关键内容。

常见的 ROUGE 变体：

示例：假设参考文本是：

"人工智能正在改变世界。"

模型生成：

"AI 正在改变整个世界。"

如果用 ROUGE-1（即按单词匹配），那么匹配到的词有："正在"、"改变"、"世界"，匹配率是 3/4 = 0.75。

适用场景：主要用于 机器翻译任务，衡量模型输出与标准翻译的相似度。

核心概念：基于 n-gram 精确匹配，主要关注 精确度（Precision），即生成文本中有多少 n-gram 片段出现在参考文本里。

计算方式：

示例：参考翻译：

"The cat is on the mat."

模型翻译：

"The cat is on mat."

如果用 BLEU-1（即按单词匹配），匹配到的单词有："The"、"cat"、"is"、"on"、"mat"，匹配率 5/5 = 1。

大白话系列：什么是 大模型评测中的ROUGE和BLEU？