后训练导读

后训练是基于预训练好的模型,调整其参数使得可以「更适用于特定任务、更符合人类价值观」。针对这两个任务目标,分别产生了以 SFT 和 RLHF 为代表的后训练策略:

  • SFT:即 Supervised Fine-Tuning,指监督微调。
  • RLHF:即 Reinforcement Learning from Human Feedback,指基于人类反馈的强化学习。

本系列文章将分别针对这两个后训练策略,详细讲解其工作流程。