跳转至

开放知识社群

基础设施

Open Wiki Community

基础设施

稳定、低成本地训练与服务大模型。关注并行策略、内存/带宽、批量化、编译/内核优化与可观测性。

A. 训练体系¶

并行范式全景：数据并行（DP）、模型并行（TP/PP）、ZeRO/FSDP 混合；通信拓扑与带宽约束。
- 参考：Shoeybi et al., 2019（Megatron-LM）；Rajbhandari et al., 2020（ZeRO）。
混合精度与数值：FP16/BF16/FP8；损失标度；溢出诊断；检查点恢复策略。
高效数据管线：多进程/异步预取、压缩格式、样本混洗与重复控制。

B. 推理加速¶

KV Cache 工程：布局、重用与跨请求共享；连续批处理（Continuous Batching）。
PagedAttention 与内存管理：分页化 KV、减少碎片；流量突发与尾延迟治理。
- 参考：vLLM（Kwon et al., 2023）。
推理编译与内核：TensorRT-LLM、Triton kernel、CUDA Graph；Flash-Decoding。
解码加速策略：投机解码（Speculative Decoding）、多草稿（Medusa/EAGLE）与质量回退。
- 参考：Leviathan et al., 2023（Speculative Decoding）。

C. 量化与蒸馏¶

后训练量化（PTQ）：INT8/GPTQ/AWQ 的差异与适用场景。
量化感知训练（QAT）与 QLoRA：适配器微调在有限显存下的性价比。
- 参考：Hu et al., 2022（LoRA）；Dettmers et al., 2023（QLoRA）。

D. 服务化与可运维¶

服务路由与多租户：模型选择器、容量规划、弹性伸缩与成本控制（P50/P95、吞吐/成本曲线）。
可靠性与观测：灰度与 A/B、SLO/SLA、漂移监测、数据反馈闭环（Eval→Guardrail→ 迭代）。
合规与安全：审计/脱敏/水印；提示注入与越狱防护的工程手段。