AI 内容指标评估系统 - 4 - 指标体系的后续优化
@jonaszhou|June 6, 2025 (3w ago)
#他山之石
Eugene Yan 的文章[1]介绍了“一个好的摘要”应该具有四方面特征 [2]:
- 相关 — 摘要保留了源文本中的重要要点和细节
- 简洁 — 摘要信息量大,不会多次重复相同的要点,并且不会不必要地冗长
- 连贯 — 摘要结构良好且易于理解,而不仅仅是一堆压缩的事实
- 忠实 — 摘要不会幻觉源文本不支持的信息
Isaac Tham 对于 AI 摘要任务,结合他的场景介绍了怎样使用 DeepEval 实现自定义评估指标 [3]。
DeepEval 的实现思路很有意思——它使用了另一个 LLM(LLM Judges[4]),来评估初始的 LLM 生成的摘要内容。
我们先来看 DeepEval 的 SummarizationMetric[5] 这两个独立底层组件:覆盖度和对齐度,这两个指标的实现方法很有意思[6]。
coverage_score
“覆盖度分数”确定摘要是否包含原文的必要信息。alignment_score
“对齐分数”确定摘要是否包含与原文相符或相矛盾的信息。
在计算“覆盖度分数”时,LLM Judge 使用源文本为基准,来检测 AI 摘要内容是否包含源文本的信息或者有冲突(问题答案是“no”,表示有冲突;“idk”表示遗漏):
在计算“对齐分数”时,LLM Judge 使用 AI 摘要为基准(与上面相反),来检测 AI 摘要内容在多大程度上跟源文本有矛盾或者遗漏(问题答案是“no”,表示 AI 摘要与原文有冲突;“idk”表示 AI 摘要出现幻觉):
我们场景的借鉴
在我们的场景下,实际上包含了两部分任务:
- AI 摘要任务:LLM 基于源文本,摘要出关键信息。
- AI 信息提取任务:LLM 基于摘要的信息,从源文本中提取原文,以支持印证上述摘要信息。
对于 AI 摘要任务,确实可以直接借鉴或使用上面的评估方法。但是对于 AI 信息提取任务,包含两部分需要评估的要点:
- 提取的信息与摘要结果的一致性,或者说,提取的信息能在多大程度上支持摘要结果。
- 这部分仍然可以借鉴上面的评估方法。
- 提取的信息是否忠于原文。由于在我们的任务里,明确希望 LLM 要基于原文提取内容,因此与原文的一致性是需要考虑的另一个重点。
-
对此项的评估,实际上更加简单,只需要将 LLM 提取的内容与原文进行比对即可,可以参考《AI 内容指标评估系统 - 2 - 建立评估指标》文章中的实现。
-