Jonas Zhou

AI 内容指标评估系统 - 1 - 训练阶段的流程改进

June 6, 2025 (3w ago)


在我们的业务应用场景下,训练 AI 大模型,本质上是训练 prompt。

任务背景

当前在我们的 AI 总结内容与提取信息的场景下,在制定并调优了 AI 的 prompt 之后,过于信赖已训练的 prompt、直接部署上线并跟踪业务应用。

当前流程:

跟踪一段时间后,越来越发现问题:

本质上是缺乏有效的评估“AI 总结内容”的指标和机制,导致结果不稳定。因此,我们建立了“AI 内容指标评估系统”,目前主要应用在训练阶段

训练阶段的流程改进

在 LLM 训练阶段(使用提示词工程进行训练),增加“AI 内容指标评估系统”。

每次针对不同的提示词进行训练,期望是能够获得符合要求的提示词组合。(提示词组合包括:系统提示词 & 用户提示词。)

每一次的训练过程:

  1. 制定当次训练的提示词组合
  2. 使用该提示词组合、结合固定的训练数据集,批量调用 AI 接口获取回复内容
  3. 针对获得的批量的 AI 总结结果,使用“AI 内容指标评估系统”进行评估,获得该提示词组合下的评估指标结果
  4. 根据评估指标结果,判断是否仍需调整提示词组合、重复训练过程

训练过程可以用图形表示成:

在我们的场景里,训练的提示词组合包括 SYSTEM_PROMPTUSER_PROMPT

USER_PROMPT 固定为加工好的拜访记录(很多天不同的拜访记录),也就是“固定的训练数据集”,因此训练的重点是:

另外,调用 LLM 的其他参数保持不变:

TEMPERATURE = 0.3 # 设置较低的 temperature
# 其他参数使用默认值

下一步实施重点

  1. 建立批量调用 API 的机制。
    • 目前的 API 调用是单次调用,无法批量调用。需要建立批量调用的机制,以便在训练阶段能够使用训练数据集,批量获取 AI 总结结果。
  2. 建立“AI 内容指标评估系统”。
    • 针对批量获取到的 AI 总结结果,使用“AI 内容指标评估系统”进行评估,获得评估指标结果。