后训练导读

后训练是基于预训练好的模型，调整其参数使得可以「更适用于特定任务、更符合人类价值观」。针对这两个任务目标，分别产生了以 SFT 和 RLHF 为代表的后训练策略：

本系列文章将分别针对这两个后训练策略，详细讲解其工作流程。