AI 内容指标评估系统 - 3 - 生产环境的流程改进
@jonaszhou|June 6, 2025 (3w ago)
在本系列《训练阶段的流程改进》文章中,我们介绍了如何在训练阶段,使用指标评估系统针对不同的提示词组合进行训练,以获得最佳表现的提示词组合。
在本系列《建立评估指标》文章中,介绍了我们如何建立评估指标体系,以及如何使用 LLM Judge 来辅助评估。
本文介绍如何在生产环境,使用同样的指标评估系统,动态获取最佳表现的 AI 回复结果、应用在实际业务场景。
在本系列《建立评估指标》文章中,介绍了我们如何建立评估指标体系,以及如何使用 LLM Judge 来辅助评估。
本文介绍如何在生产环境,使用同样的指标评估系统,动态获取最佳表现的 AI 回复结果、应用在实际业务场景。
生产环境的应用流程
在实际生产环境应用中,最核心的操作可以总结为:
- 对于待 AI 总结的内容,生成多个副本(我们生成了10份)
- 对于生成的多个副本,逐个调用 LLM 进行总结
- 使用“AI 内容指标评估系统”,对所有总结内容逐个进行分析,并给出评估结果
- 选择得分最高的总结结果,作为最终的总结结果
上面的各个阶段的具体实现,可以拆解为以下流程:
其他事项
在我们的场景中,现阶段由于最关注“错误匹配原文”的情况,所以“原文引用准确性”指标具有一票否决权:
- 对于某个副本的 AI 回复内容的评估结果中,只要该指标结果不是1,那么就弃用该副本的 AI 回复内容
# 首先检查原文引用准确性
citation_accuracy_data = metrics.get("citation_accuracy", {})
citation_accuracy_score = citation_accuracy_data.get("citation_accuracy", 0.0)
# 如果原文引用准确性不是1,整体分数直接为0
if citation_accuracy_score < 1.0:
return 0.0