跳转至

Accelerator

本文介绍市面上常见的计算卡。

GPU

图形处理器 (Graphics Processing Unit, GPU) 是一种专门在个人电脑、工作站、游戏机和一些移动设备上执行绘图运算工作的微处理器。以图形处理器为核心的主板扩展卡一般称之为显卡。传统的 CPU 专为通用计算而设计,内核数量较少;相反,GPU 是一种特殊类型的处理器,具有数百或数千个内核,可并行运行大量计算。虽然 GPU 在游戏中以 3D 渲染而闻名,但它们对深度学习算法尤其有用。一般来说,以 GPU 为核心的显卡都代指 NVIDIA 系列,简称 N 卡。

各显卡在 AI 相关核心指标上的对比:

指标 H200 H100 H800 A100 A800 RTX 5090 RTX 4090 V100
CUDA 核心数 16,896 14,592 14,592 6,912 6,912 21,760 16,384 5,120
显存容量 (GB) 141 80 80 80 80 32 24 32

指标解释:

  • CUDA 核心数:GPU 的通用计算单元数量,类似 CPU 的核心数,用于执行基本浮点或整数运算;
  • 显存容量:影响能容纳的模型大小与 batch size,显存不足需要分布式切分。

显卡型号解释:

  • H200(Hopper 架构强化版):在 H100 基础上升级为 HBM3e 内存(141GB, 4.8TB/s),主要针对超大模型推理与长上下文训练。它能在推理任务中显著减少显存溢出,是当前效率最高的单卡推理 GPU。
  • H100(Hopper 架构):支持 FP8 和 Transformer Engine,是目前全球顶级 AI 训练 GPU,用于 GPT-4 等超大模型。
  • H800(中国特供版):H100 的限带宽版本,NVLink 降至 400 GB/s,为中国市场的合法替代方案。
  • A100(Ampere 架构):AI 训练标准卡,支持 TF32/BF16 混合精度,兼具高通用性与高算力。
  • A800(中国特供版):A100 的限带宽版本,NVLink 降至 400 GB/s,以符合出口管制政策。
  • RTX 5090(Blackwell 架构):下一代消费级 GPU,预计支持 FP8,能效和显存带宽大幅提升,或成为个人开发者训练/推理的高性价比卡。
  • RTX 4090(Ada 架构):消费级旗舰 GPU,主要用于游戏和中小型 AI 训练/推理实验,算力强但显存较小、无多卡互联。
  • V100(Volta 架构):首款具备 Tensor Core 的数据中心 GPU,开启了深度学习硬件加速时代。