模型原理 理解、复现、创新。 一些资源: CS 336: Language Modeling from Scratch 深度学习论文精读 高效注意力:中文报告 PDF 重大意义的模型或原理: Transformer 动态词向量:ELMo (2018) Scaling Law Decode + Encode: T5 (2019), BART (2019) Encode only: BERT (2018), RoBERTa (2019) Decode only: GPT3 (2020) MoE Fine-tuning RLHF (DPO, GRPO)