AI 内容指标评估系统 - 1 - 训练阶段的流程改进
@jonaszhou|June 6, 2025 (3w ago)
在我们的业务应用场景下,训练 AI 大模型,本质上是训练 prompt。
任务背景
当前在我们的 AI 总结内容与提取信息的场景下,在制定并调优了 AI 的 prompt 之后,过于信赖已训练的 prompt、直接部署上线并跟踪业务应用。
当前流程:
跟踪一段时间后,越来越发现问题:
- AI 总结结果不稳定:测试阶段得到的总结结果看上去没问题,但是实际运行一段时间后,总结的质量不稳定,会有各种各样预想不到的问题。
本质上是缺乏有效的评估“AI 总结内容”的指标和机制,导致结果不稳定。因此,我们建立了“AI 内容指标评估系统”,目前主要应用在训练阶段。
训练阶段的流程改进
在 LLM 训练阶段(使用提示词工程进行训练),增加“AI 内容指标评估系统”。
每次针对不同的提示词进行训练,期望是能够获得符合要求的提示词组合。(提示词组合包括:系统提示词 & 用户提示词。)
每一次的训练过程:
- 制定当次训练的提示词组合
- 使用该提示词组合、结合固定的训练数据集,批量调用 AI 接口获取回复内容
- 针对获得的批量的 AI 总结结果,使用“AI 内容指标评估系统”进行评估,获得该提示词组合下的评估指标结果
- 根据评估指标结果,判断是否仍需调整提示词组合、重复训练过程
训练过程可以用图形表示成:
在我们的场景里,训练的提示词组合包括 SYSTEM_PROMPT
和 USER_PROMPT
。
USER_PROMPT
固定为加工好的拜访记录(很多天不同的拜访记录),也就是“固定的训练数据集”,因此训练的重点是:
- 传入不同的
USER_PROMPT
- 调优
SYSTEM_PROMPT
另外,调用 LLM 的其他参数保持不变:
TEMPERATURE = 0.3 # 设置较低的 temperature
# 其他参数使用默认值
下一步实施重点
- 建立批量调用 API 的机制。
- 目前的 API 调用是单次调用,无法批量调用。需要建立批量调用的机制,以便在训练阶段能够使用训练数据集,批量获取 AI 总结结果。
- 建立“AI 内容指标评估系统”。
-
针对批量获取到的 AI 总结结果,使用“AI 内容指标评估系统”进行评估,获得评估指标结果。
-