TurboDiffusion

TurboDiffusion 是清华 MLSys 团队近日提出的视频生成加速方案。其基于 Wan2.1 T2V 和 Wan2.2 I2V 模型进行了百倍加速，且视频质量损失较小。本文尝试解读其加速方案，并推广到其他模型上。

基本概念¶

Wan2.1 模型架构：

Wan2.1 I2V 模型架构：

Wan2.1 计算效率：

模型架构方面，相较于 Wan2.1，Wan2.2 主要引入了混合专家 (Mixture-of-Experts, MoE) 架构：

Wan2.2 计算效率：

目前主流的注意力优化机制主要从四个方面入手：

当然，也可以混合上述注意力优化方案。比如：

FlashAttention 提供了注意力计算的 Python API 接口。也是 Wan2.1 和 Wan2.2 模型使用的注意力加速手段。

目前，FlashAttention2 可以使用 PyPI 安装，FlashAttention3 针对 Hopper 架构的 GPU 做了优化，需要基于源码编译安装。

使用 FlashAttention2 需要导入以下包：

Python
import flash_attn

使用 FlashAttention3 需要导入以下包：

Python
import flash_attn_interface

两个版本的接口一致。

SageAttention 是清华大学 MLSys 团队提出的基于硬件的注意力加速手段，可以作为 FlashAttention 的平替，并且代码侵入性更低，可以直接替换 PyTorch 的缩放点积函数：

Diff
1 2 3 4 5 6 7	`import torch.nn.functional as F + from sageattention import sageattn + F.scaled_dot_product_attention = sageattn q, k, v = ... o = F.scaled_dot_product_attention(q, k, v)`

TurboDiffusion 在以下模型上展开了实验：

其在单卡 RTX 5090 上获得了极快的推理速度：

TurboDiffusion 在训练和推理阶段分别使用了不同的优化方案。

训练阶段：

推理阶段：

消融对比如下：