AI 内容指标评估系统 - 3 - 生产环境的流程改进

@jonaszhou|2025年6月6日 (8个月前)

在本系列《训练阶段的流程改进》文章中，我们介绍了如何在训练阶段，使用指标评估系统针对不同的提示词组合进行训练，以获得最佳表现的提示词组合。在本系列《建立评估指标》文章中，介绍了我们如何建立评估指标体系，以及如何使用 LLM Judge 来辅助评估。本文介绍如何在生产环境，使用同样的指标评估系统，动态获取最佳表现的 AI 回复结果、应用在实际业务场景。

生产环境的应用流程

在实际生产环境应用中，最核心的操作可以总结为：

对于待 AI 总结的内容，生成多个副本（我们生成了10份）
对于生成的多个副本，逐个调用 LLM 进行总结
使用“AI 内容指标评估系统”，对所有总结内容逐个进行分析，并给出评估结果
选择得分最高的总结结果，作为最终的总结结果

上面的各个阶段的具体实现，可以拆解为以下流程：

其他事项

在我们的场景中，现阶段由于最关注“错误匹配原文”的情况，所以“原文引用准确性”指标具有一票否决权：

对于某个副本的 AI 回复内容的评估结果中，只要该指标结果不是1，那么就弃用该副本的 AI 回复内容

# 首先检查原文引用准确性
citation_accuracy_data = metrics.get("citation_accuracy", {})
citation_accuracy_score = citation_accuracy_data.get("citation_accuracy", 0.0)

# 如果原文引用准确性不是1，整体分数直接为0
if citation_accuracy_score < 1.0:
    return 0.0