SGLang

SGLang 是用于大型语言模型和视觉语言模型的高性能服务框架。它旨在跨从单个 GPU 到大型分布式集群的各种设置提供低延迟和高吞吐量推理。