深入解析如何评估LLM 摘要的质量最近，我一直在思考一个技术难题：如何像UE5引擎优化《黑神话：悟空》画面一样，优化我们

最近，我一直在思考一个技术难题：如何像UE5引擎优化《黑神话：悟空》画面一样，优化我们对AI摘要的理解？

作为一个科技区UP主，我经常在搬砖（搬运知识）的过程中发现，虽然大语言模型（LLLMs）给我们的生活带来了许多便利，比如Podsmart这样的 podcast 智能剪辑工具，以及 aiRead 这样的 PDF 阅读助手。但有一个问题一直让我头疼——如何像打游戏一样，给AI生成的摘要内容进行有效的评估？

就像《黑神话：悟空》凭借UE5引擎的优化带来了画面革命一样，我最近也被两位技术大神的文章醍醐灌顶（链接和链接），意识到对AI摘要进行系统性评估的重要性。这让我决定开始研究如何像"肝装备"一样，提升我们的摘要评估能力。

在这篇文章中，我将带大家从零开始，学习一套简单易懂、有科学依据且量化化的框架，用于评估AI生成的摘要内容。这套方法基于Confident AI开发的DeepEval框架，并对其进行优化升级。

让我们先来看一个实际案例：我将尝试用这个新方法来评估一篇大约500字对 Securing the AGI Laurel: Export Controls, the Compute Gap, and China’s Counterstrategy 这篇长文的摘要（这篇文章发布于2024年12月，绝对是最新的AI领域干货）。

接下来，我们将从以下几个方面展开：

表目录

为什么评估摘要这么难？
什么样的摘要才是好摘要？
DeepEval框架介绍
DeepEval的摘要评估指标
如何优化摘要评估指标
简洁性评估指标
连贯性评估指标
把所有东西整合起来
未来的工作方向

好了，搬砖不易，且搬且珍惜。让我们一起搬好小板凳，开始这场技术探索之旅吧！# 为什么评估摘要这么难？我来跟你唠唠嗑~

开放性：Summary的“主观臆测人生”

兄弟们，咱们先说个话题：写总结这事儿，跟玩文字游戏似的，根本没固定答案！

不像分类任务那样，直接"是"或"否"就能解决。更不像实体识别，直接圈出来就完事了。你得看流畅度、连贯性、一致性这些指标——听起来是不是像在评价女朋友的厨艺？（ಡ ￣∇￣）築

关键是，这些标准还特别主观！比如相关性，这玩意儿完全取决于上下文和受众。昨天我玩《黑神话：悟空》优化版，看着那些美轮美奂的画面，你可能会觉得“这也太好看了吧！”但隔壁老王可能觉得“这画面也太艳了点吧。”同一个总结，不同人眼里自然有不同的看法。

数据集：人工标注的血泪史

咱们再来说说数据集这块儿。做RAG的时候，大家伙儿还能合成问答对，搞个简单的评估。但是做摘要？我的天啊，这事儿比养个神兽还难！

你得找人来手动标注参考摘要——这不就是“纯手工打造”吗？就像UE5引擎优化《黑神话：悟空》里的角色建模，每一个细节都得精雕细琢。而且这些数据集还是通用的，未必能对上你的具体需求。

指标：学术派 vs 实用派

最后咱们聊聊指标这块儿。说实话，很多论文里提的摘要评估指标，对于咱们这些搞实战的AI开发者来说，真的有点“高射炮打蚊子”的感觉。

比如那些动辄几个GB的神经网络指标（比如Seahorse、Summac），这不就是“劝退选手”吗？再加上还得会用GPU集群调模型——说实话，这也太离谱了吧！（手动狗头）

至于传统的BLEU和ROUGE这些指标，它们是为了解决提取式摘要而生的。到了现在的生成式模型，直接照搬过来用，效果那叫一个差强人意啊！就像用PS4玩《黑神话：悟空》优化版，根本发挥不出游戏的真正实力。

兄弟们，总结评估这事儿，真的不是盖房子打地基那么简单。它更像是在玩一局“主观臆测大作战”，每一步都得小心翼翼。咱们搞技术的，还是得多花点心思研究适合自己的评估方法哦！

什么样的知识点总结才算“顶”？UE5教我的摘要之道

如何写出一份高质量的知识点总结, 这事儿听起来简单，但做起来可不简单，就像《黑神话：悟空》用UE5引擎优化后，画面帧数直接拉满，细节栩栩如生。好的知识点总结也是这样，需要在"精炼"和"全面"之间找到那个完美的平衡点。

优秀知识点总结的四大特征

相关性（Relevant）：就像《黑神话：悟空》中的每一个场景都经过精心设计，优秀的知识点总结必须保留原文中最关键的信息。这就好比你在打游戏时选择最重要的装备，既不能多也不能少。
简洁性（Concise）：信息密度高，不重复啰嗦。这让我想起了UE5引擎优化后的画面效果——细节丰富但绝不冗余。知识点总结也是一样，要让读者一目了然，而不是一遍又一遍地重复同一个观点。
连贯性（Coherent）：结构清晰，逻辑分明。就像《黑神话：悟空》中的战斗设计，每一个动作都经过精心编排，知识点总结也需要有条理，不能只是零散的事实堆砌。
忠实性（Faithful）：不添加任何原文中没有的信息。这就好比在游戏中还原原著场景，不能凭空想象添加不存在的细节。

知识点总结的"精准打击"

这里有个关键点：我们可以把知识点总结的质量看作是一个分类问题。具体来说，就是如何在保持摘要长度不变的前提下，最大化保留原文中的重要信息（召回率），同时确保每一个总结的内容都有充分的原文支持（精确率）。这就像《黑神话：悟空》中的角色建模，既要保证细节的真实还原（召回率），又要避免过度设计破坏整体美感（精确率）。

深度学习评估框架入门

说到知识点总结的质量评估，市面上有各种各样的工具和框架。但今天我要推荐的是DeepEval——一个特别适合新手上手的工具，尤其在摘要领域表现尤为出色。它就像《黑神话：悟空》中的自动瞄准系统，帮助我们快速找到目标，提升效率。

记住，写知识点总结不是为了完成任务，而是为了让信息真正被理解和应用。所以，我们要像游戏优化师一样，不断打磨每一个细节，让最终呈现的效果既精致又有深度。接下来让我们一起用DeepEval这个神器来实践一下吧！

DeepEval：让你的模型评估像《黑神话：悟空》一样丝滑流畅！

在当今AI开发领域，效率就是一切！就像《黑神话：悟空》凭借UE5引擎优化带来极致画面表现一样，DeepEval工具也为你的模型评估流程带来了革命性的提升。

为什么选择 DeepEval？

开箱即用的RAG指标：内置多种现成的检索增强生成（RAG）指标，让你无需从零开始。
灵活的链式思维LLM评估工具 GEval：支持自定义评判标准，就像《黑神话》中悟空七十二变一样灵活多变！
并行化处理：通过异步操作实现快速评估，你的数据集处理速度将会有质的飞跃。
合成数据生成：打造属于你自己的“花果山水帘洞”，轻松生成各种测试数据。

DeepEval 的总结摘要度量

DeepEval的摘要度量工具就像《黑神话》中的“天眼通明”技能，无需依赖黄金标准参考（Gold-standard summaries），只需要两样东西：

源文本：作为模型输入
生成摘要：作为实际输出

对齐与覆盖：你的AI模型也有“火眼金睛”

DeepEval的总结度量工具在幕后分为两个核心部分：对齐和覆盖，就像《黑神话》中悟空的七十二变需要配合天罡地煞阵一样。

对齐（Alignment）

生成声明：评估LLM从摘要中提取关键信息，形成“天庭诏书”。
验证支持度：评估这些声明中有多少能被源文本中的“真相”所支持，得出对齐得分。

简单来说，就是看你的摘要内容是否靠谱，有没有跑题跑得像“打地狱”。

覆盖（Coverage）

生成问题：从源文本中提取关键信息点，生成一系列“天庭密卷”。
回答检验：仅用摘要作为知识库来回答这些问题，如果找不到答案就直接写“idk”（不知道）。
正确率评估：统计回答正确的数量，得出覆盖得分。

这一步就像在玩《黑神话》中的“问答闯关”，考验你的摘要是否能“一击通关”。

代码示例

# 初始化DeepEval评估器
evaluator = DeepEvaluator()

# 输入源文本和生成摘要
source_text = "..." # 填入你的源文本
generated_summary = "..." # 填入你的生成摘要

# 计算对齐和覆盖得分
alignment_score = evaluator.calculate_alignment(source_text, generated_summary)
coverage_score = evaluator.calculate_coverage(source_text, generated_summary)

print(f"Alignment Score: {alignment_score}")
print(f"Covrage Score: {coverage_score}")

提升摘要指标

尽管DeepEval的工作已经是一个很好的起点，但目前的形式仍然存在三个关键问题，影响着摘要指标的可靠性和实用性。

所以我打造了一个自定义摘要指标，在继承DeepEval的基础上进行了改进。下面，我将逐一讲解每个问题，并介绍我的解决方案：

1：用yes/no问题衡量覆盖度过于简单

当前评估问题是被限制为只能是yes/no形式，其中回答只有“是”才能算正确——看看这些问题：

这种做法存在两个问题：

首先，将问题框定为二选一的yes/no形式，这大大限制了信息量，尤其是无法捕捉到那些需要细致区分的质性判断。

其次，如果LLM在根据摘要生成回答时“臆想”出一个“是”的答案（因为只有三种可能的回答：‘是’、‘否’、‘不知道’，所以它“臆想”‘是’并不意外），评估者就会错误地认为这个回答是对的。而开放性问题就很难出现这种情况。此外，你会发现这些问题的措辞几乎都在暗示答案应该是“是”，比如“中国是否将信息不透明作为战略？”这就增加了得到错误“是”的可能性。

我的解决方案是让LLM生成开放性问题——在代码中这些被称为‘复杂问题’。

同时，我要求LLM为每个问题分配重要性评分（这样我们就可以在计算覆盖分数时对更重要的问题进行加权）。

这就好比在玩《黑神话：悟空》时，不仅要完成地心之门任务，还要根据装备的重要性来优化性能表现。

用"AI判卷老师"检测模型答案？原来背后有这些黑科技！

最近我在研究一个有趣的技术问题：如何评估大语言模型（LLM）生成的答案质量。这让我联想到《黑神话：悟空》中那些令人惊叹的UE5画面效果——同样是优化技术，只不过这次是在AI领域。

一、"AI判卷老师"的黑科技

我们先来想象一个场景：有一个"AI判卷老师"（也就是LLM），它会根据0-5分给模型生成的答案打分。这个评分系统的核心在于比较两个答案的相似度：一个是直接从原文生成的答案，另一个是通过摘要得到的答案。

听起来是不是有点像《黑神话》中那些精美的画面都是由引擎优化实现的？只不过这次我们是在用AI来优化评估过程。

二、"知识点提取"的坑爹之处

在实现这个评分系统时，有个关键步骤叫作"知识点提取"。简单来说，就是从原文中提取一些关键事实或细节（也就是所谓的truths），然后用来和摘要生成的答案进行对比。

但是！这个方法就像《黑神话》中的某些场景优化一样——虽然看起来很美，但实际效果可能差强人意。原因有二：

非确定性问题：LLM提取的知识点可能会"随机波动"，导致评分系统给出的分数也不稳定。
漏网之鱼：有些正确的知识点可能被遗漏在提取之外，就像《黑神话》中某些未被优化的画面细节一样。

更坑爹的是，当把原文和摘要直接对比时，居然会出现评分不理想的情况。这就好比游戏优化时明明画面已经很好了，但某些设置却让效果打折。

三、"开箱即用"的解决方案

为了解决这些问题，我想到一个简单又暴力的方法：直接把整个原文都给"AI判卷老师"看！这样它就可以在同一个上下文中评估所有答案的相似度。

这个方法的好处是：

降低计算成本：虽然看起来是多看了一点内容，但实际调用次数减少后，整体开销反而下降。
提升准确性：就像《黑神话》中使用了全局光照技术一样，这次我们把整个上下文都考虑进来了。

这种方法就像是给"AI判卷老师"开了上帝视角，让它能更全面地进行评估。虽然简单，但效果显著！

总的来说，这个优化方案就像《黑神话：悟空》中的UE5引擎一样，通过看似简单的调整带来了质的提升。下次再遇到类似问题，不妨试试这种"开箱即用"的方法！

3: 最终得分取对齐分数和覆盖分数中的较小值？这波有点坑！

话说回来，当前模型输出的最终得分是取对齐分数和覆盖分数中的较小值。这招...怎么说呢，有点“左右为难”的意思在里头。你要是想看这两个分数的具体数值，还得去日志里找，这也太不够友好了吧！

问题就出在这儿：一般来说，覆盖分数大概率会比对齐分数低（如果反过来，那才真是大问题！）。这就导致了一个很尴尬的局面——就算对齐分数在那儿蹦蹦跳跳的，也不会影响到最终得分。但是呢，这可不代表我们可以对对齐分数的波动视而不见。比如说，从1掉到0.8，这可不是什么小打小闹的问题，这说明摘要可能有点“信口开河”了。

我的解决思路是：为什么不借鉴机器学习分类里的F1分数呢？F1分数可是把精确率和召回率都考虑进去了，能更好地反映模型的表现。再说得夸张一点，这就是“鱼和熊掌兼得”的好办法！当然啦，你也可以根据具体需求调整精确率和召回率的权重（比如觉得“胡说八道”是天敌的话，可以给精确率多上点砝码）。

经过这三项改动后，摘要评估指标终于能更全面地反映生成摘要的相关性和准确性了！

简洁性指标

不过呢，光看这些还远远不够。一个好的摘要不仅要信息丰富，还得简洁有力——把关键内容浓缩成精华版。

这时候就得搬出“实体密度”这个小宝贝啦！《Chain-of-Density》论文里可是有实锤：人类写的摘要，还有我们更偏爱的AI生成的摘要，它们的实体密度大约是0.15个实体每Token。这数据可是恰到好处，既保证了清晰度（不太密集），又兼顾了信息量（足够充实）。

信息浓度、 vagueness 和重复率：文本摘要的三大评估指标解析

最近在研究文本摘要的时候，发现了一个很有意思的优化方向——信息密度！这让我想起了《黑神话：悟空》里那些经过UE5引擎优化后的精美画面，简直就像是给文字也做了一次“超高清重制”！

1. 信息浓度（Density Score）：浓缩才是王道

首先登场的是我们的第一个评估指标——信息密度得分。这个概念听起来是不是有点像我们平时说的“浓缩牛奶”？没错！它就是用来衡量摘要内容的“浓度”的。

传统的AI生成摘要通常会比较“稀释”，信息密度一般在0.10或以下，就像一杯没加糖的咖啡，味道寡淡。这时候就需要祭出我们的“链式密度”（Chain-of-Density）方法了！

Ivan Leo和Jason Liu两位大神写了一篇很棒的文章，教我们如何通过实体密度这个关键指标来微调摘要效果。简单来说，就是让信息浓度既不过于稀释（低于0.15），也不能过于饱和（高于0.15）。这就像调制一杯刚刚好的卡布奇诺，既不会太苦也不会太甜。

2. 模糊度检测：别再说些“虚头巴脑”的话

接下来要介绍的是我的“拿手好戏”——句子模糊度指标。这个指标专门用来打击那些“虚头巴脑”的句子，比如：“这篇摘要描述了……的原因。”这种说法就像是在玩文字游戏，完全没给出实质性信息。

我的做法是把整个摘要拆分成一句句的“独立宣言”，然后让大语言模型（LLM）来充当“判官”，判断每句话是否属于“模糊不清”的范畴。最后再统计一下“模糊率”——就是说，你的摘要里有多少句子在玩文字游戏。

3. 重复率检测：别总在一个地方打转

最后一个要介绍的是重复度指标。这就像是一场马拉松，如果你一直在重复同样的内容，那不是在浪费宝贵的篇幅吗？我们应该把有限的“跑道”留给新的观点和见解。

这里我用的是基于GEval方法的评估体系。GEval就像是一个智慧型的检测器（其实就是大语言模型），通过链式思维来判断摘要中的重复概念。不过这个方法目前还不太稳定，有时候同一个输入反复测试，结果可能会变来变去。所以可能需要在prompt设计上多下点功夫。

总结：优化你的“信息配方”

这三个指标就像是调制一杯完美咖啡的三个步骤——先调整浓度（Density Score），再减少模糊味（Sentence Vagueness），最后确保不重复（Repetitiveness）。只有把这三者都做到位，才能让我们的文本摘要既浓香又清晰，既不“虚头巴脑”也不“重复累赘”。

是不是感觉像极了在优化一杯完美的意式浓缩？哈哈，别忘了，技术研究也是需要一点创意和趣味性的！如果你对这些评估指标感兴趣，不妨留言讨论一下你的看法~

让LLM输出更有逻辑性：像《黑神话：悟空》一样丝滑衔接

在大语言模型（LLM）的输出评估中，我们也在追求一种“丝般顺滑”的逻辑连贯性。

Meta最近在他们的大规模概念模型研究 paper 中就用了一种叫做局部连贯性的指标——简单来说就是看每句话之间的“化学反应”有多强。具体怎么算呢？就是计算第n句和第n+2句的余弦相似度，然后取平均值。

我们发现，当前主流LLM在摘要生成上的得分大约是0.45。为了验证这个分数是否合理，我们可以做一个简单的实验：把摘要里的句子打乱顺序，这时候连贯性得分直接掉到0.4以下。这就好比《黑神话》里悟空突然卡顿了一下，破坏了整个动作的流畅感。

打包你的专属评估指标

既然我们已经了解了这些关键指标，那就可以把它们打包成一套“自定义评估工具箱”啦！（具体实现可以参考我们的代码笔记本）

这套工具的好处就是可以同时运行多个评估指标，一次性出结果。就像是《黑神话》的UE5引擎一样，把所有的优化效果打包在一起，直接应用到你的数据集上。

一个小小的注意事项

虽然这些指标都很实用，但目前对于“最优值”这个问题还没有统一的标准答案。就像《黑神话》里悟空的战斗评分一样，我们只能通过不同AI生成摘要之间的对比，来判断哪个更好、哪个更棒。

总之，评估大语言模型输出质量就像是在打造一件武器装备，我们需要用多维度的指标去衡量它的性能表现。希望这些内容能帮到正在研究文本生成的你！# 未来工作：让AI摘要评估像《黑神话：悟空》一样“丝滑”？

相信各位看完这篇文章后，对AI摘要评估有了一个全新的认识！虽然目前的方法已经能打，但还是有一些提升空间。

就像《黑神话：悟空》通过UE5引擎优化画面表现一样，我们也在不断打磨和完善我们的评估方法。未来有几个方向值得探索：

让“重点捕捉”更精准
目前的评估更多关注是否抓住了要点，但如何区分“重要点”和“不相关细节”还需要优化。想象一下，如果AI能像悟空的火眼金睛一样，精准识别关键信息，那才是真本事！
合成数据：打造我们的“花果山”
想象一下，如果我们能生成一套“理想化”的文本（就像《黑神话》中的完美场景），然后让AI去总结，这样就能更客观地评估表现。这一步就像是在游戏里搭建一个完美的虚拟世界，需要精细的调优和测试。
让评估与人类偏好高度契合
最重要的是，我们的评估方法要能“取悦”目标用户。就像《黑神话》通过不断优化画质来讨好玩家一样，我们也需要确保AI生成的内容更贴近实际需求——是偏向数据驱动的统计型摘要，还是更注重逻辑连贯的故事性叙述？

为了实现这些目标，我们可以借鉴一些游戏开发中的理念：

模块化测试：就像游戏引擎对不同组件进行独立优化一样，我们也要分别评估内容完整性和逻辑通顺度。
用户反馈机制：通过类似《黑神话》的“试玩Demo”模式，收集真实用户的偏好数据，不断迭代我们的评估模型。

最后，别忘了关注我，未来我们会带来更多有趣又实用的技术分享！如果你也有自己独特的评估方法或见解，欢迎在评论区和我交流。一起让AI摘要技术更上一层楼！

深入解析如何评估LLM 摘要的质量

表目录