AI 内容指标评估系统 - 4 - 指标体系的后续优化

@jonaszhou|2025年6月6日 (8个月前)

#1. 他山之石

Eugene Yan 的文章[1]介绍了“一个好的摘要”应该具有四方面特征 [2]：

Isaac Tham 对于 AI 摘要任务，结合他的场景介绍了怎样使用 DeepEval 实现自定义评估指标 [3]。

DeepEval 的实现思路很有意思——它使用了另一个 LLM（LLM Judges[4]），来评估初始的 LLM 生成的摘要内容。

我们先来看 DeepEval 的 SummarizationMetric[5] 这两个独立底层组件：覆盖度和对齐度，这两个指标的实现方法很有意思[6]。

在计算“覆盖度分数”时，LLM Judge 使用源文本为基准，来检测 AI 摘要内容是否包含源文本的信息或者有冲突（问题答案是“no”，表示有冲突；“idk”表示遗漏）：

在计算“对齐分数”时，LLM Judge 使用 AI 摘要为基准（与上面相反），来检测 AI 摘要内容在多大程度上跟源文本有矛盾或者遗漏（问题答案是“no”，表示 AI 摘要与原文有冲突；“idk”表示 AI 摘要出现幻觉）：

在我们的场景下，实际上包含了两部分任务：

对于 AI 摘要任务，确实可以直接借鉴或使用上面的评估方法。但是对于 AI 信息提取任务，包含两部分需要评估的要点：

提取的信息与摘要结果的一致性，或者说，提取的信息能在多大程度上支持摘要结果。
- 这部分仍然可以借鉴上面的评估方法。
提取的信息是否忠于原文。由于在我们的任务里，明确希望 LLM 要基于原文提取内容，因此与原文的一致性是需要考虑的另一个重点。
- 对此项的评估，实际上更加简单，只需要将 LLM 提取的内容与原文进行比对即可，可以参考《AI 内容指标评估系统 - 2 - 建立评估指标》文章中的实现。