跳到主要内容

轨迹与训练格式

Hermes 可以保存对话轨迹,用于训练、评估和批量数据生成工作流。

主要文件:

  • agent/trajectory.py
  • run_agent.py
  • batch_runner.py
  • trajectory_compressor.py

轨迹的用途

轨迹输出用于:

  • 监督微调(SFT)数据生成
  • 调试智能体行为
  • 基准测试/评估工件捕获
  • 后处理和压缩流水线

规范化策略

Hermes 将实时对话结构转换为适用于训练的格式。

重要的行为包括:

  • 在显式标记中表示推理过程
  • 将工具调用转换为结构化的类 XML 区域,以确保数据集兼容性
  • 适当地分组工具输出
  • 分离成功和失败的轨迹

持久化边界

轨迹文件不会盲目地镜像所有运行时的提示状态。

一些仅在提示时存在的层被有意地从持久化的轨迹内容中排除,以使数据集更干净且更少依赖特定环境。

批量运行器

batch_runner.py 比单次会话的轨迹保存会输出更丰富的元数据,包括:

  • 模型/提供商元数据
  • 工具集信息
  • 部分完成/失败标记
  • 工具统计信息

相关文档