Jonas Zhou

AI 内容指标评估系统 - 4 - 指标体系的后续优化

June 6, 2025 (3w ago)

他山之石

Eugene Yan 的文章[1]介绍了“一个好的摘要”应该具有四方面特征 [2]

  1. 相关 — 摘要保留了源文本中的重要要点和细节
  2. 简洁 — 摘要信息量大,不会多次重复相同的要点,并且不会不必要地冗长
  3. 连贯 — 摘要结构良好且易于理解,而不仅仅是一堆压缩的事实
  4. 忠实 — 摘要不会幻觉源文本不支持的信息

Isaac Tham 对于 AI 摘要任务,结合他的场景介绍了怎样使用 DeepEval 实现自定义评估指标 [3]

DeepEval 的实现思路很有意思——它使用了另一个 LLM(LLM Judges[4]),来评估初始的 LLM 生成的摘要内容。

我们先来看 DeepEval 的 SummarizationMetric[5] 这两个独立底层组件:覆盖度对齐度,这两个指标的实现方法很有意思[6]

在计算“覆盖度分数”时,LLM Judge 使用源文本为基准,来检测 AI 摘要内容是否包含源文本的信息或者有冲突(问题答案是“no”,表示有冲突;“idk”表示遗漏):

在计算“对齐分数”时,LLM Judge 使用 AI 摘要为基准(与上面相反),来检测 AI 摘要内容在多大程度上跟源文本有矛盾或者遗漏(问题答案是“no”,表示 AI 摘要与原文有冲突;“idk”表示 AI 摘要出现幻觉):

我们场景的借鉴

在我们的场景下,实际上包含了两部分任务:

对于 AI 摘要任务,确实可以直接借鉴或使用上面的评估方法。但是对于 AI 信息提取任务,包含两部分需要评估的要点:

  1. 提取的信息与摘要结果的一致性,或者说,提取的信息能在多大程度上支持摘要结果。
    • 这部分仍然可以借鉴上面的评估方法。
  2. 提取的信息是否忠于原文。由于在我们的任务里,明确希望 LLM 要基于原文提取内容,因此与原文的一致性是需要考虑的另一个重点。