基础设施
稳定、低成本地训练与服务大模型。关注并行策略、内存/带宽、批量化、编译/内核优化与可观测性。
A. 训练体系¶
- 并行范式全景:数据并行(DP)、模型并行(TP/PP)、ZeRO/FSDP 混合;通信拓扑与带宽约束。
- 参考:Shoeybi et al., 2019(Megatron-LM);Rajbhandari et al., 2020(ZeRO)。
- 混合精度与数值:FP16/BF16/FP8;损失标度;溢出诊断;检查点恢复策略。
- 高效数据管线:多进程/异步预取、压缩格式、样本混洗与重复控制。
B. 推理加速¶
- KV Cache 工程:布局、重用与跨请求共享;连续批处理(Continuous Batching)。
- PagedAttention 与内存管理:分页化 KV、减少碎片;流量突发与尾延迟治理。
- 参考:vLLM(Kwon et al., 2023)。
- 推理编译与内核:TensorRT-LLM、Triton kernel、CUDA Graph;Flash-Decoding。
- 解码加速策略:投机解码(Speculative Decoding)、多草稿(Medusa/EAGLE)与质量回退。
- 参考:Leviathan et al., 2023(Speculative Decoding)。
C. 量化与蒸馏¶
- 后训练量化(PTQ):INT8/GPTQ/AWQ 的差异与适用场景。
- 量化感知训练(QAT)与 QLoRA:适配器微调在有限显存下的性价比。
- 参考:Hu et al., 2022(LoRA);Dettmers et al., 2023(QLoRA)。
D. 服务化与可运维¶
- 服务路由与多租户:模型选择器、容量规划、弹性伸缩与成本控制(P50/P95、吞吐/成本曲线)。
- 可靠性与观测:灰度与 A/B、SLO/SLA、漂移监测、数据反馈闭环(Eval→Guardrail→ 迭代)。
- 合规与安全:审计/脱敏/水印;提示注入与越狱防护的工程手段。