后训练导读 后训练是基于预训练好的模型,调整其参数使得可以「更适用于特定任务、更符合人类价值观」。针对这两个任务目标,分别产生了以 SFT 和 RLHF 为代表的后训练策略: SFT:即 Supervised Fine-Tuning,指监督微调。 RLHF:即 Reinforcement Learning from Human Feedback,指基于人类反馈的强化学习。 本系列文章将分别针对这两个后训练策略,详细讲解其工作流程。