L40S解析,同是AD102核心为什么强于A800(A100)近2成性能

发布网友发布时间：2024-09-29 07:05

共1个回答

热心网友时间：2024-10-12 19:45

一张显卡，不以华丽配置示人，却以惊人性能与价格对比引发关注。这便是L40S，一款通过OEM渠道购得，价格接近1万美刀的被动散热显卡。L40S搭载AD102核心，却未配备NVLINK、PCIE5.0与HBM3显存，只与4090共享核心，搭配GDDR6(ECC)显存。显存带宽不足963G，甚至低于4090 GDDR6X 1008G的带宽，高出近10%。然而，L40S凭借这一配置，竟性能领先上一代AI旗舰卡A800(A100)近2成。

NVIDIA是如何实现这一壮举的？将消费级核心以万元价格销售，这究竟是如何做到的？或许，我们并未充分理解AD102的真正实力。4090所用的AD102-300核心，残血阉割16384个CUDA内核，配备16MB L1 Cache与72MB L2 Cache，已足以吊打3090TI。然而，完整版AD102拥有18496个CUDA内核，L1与L2缓存容量分别提升至18MB与96MB，相比4090提升了接近20%。

关键在于，现在的TensorCore对于L2缓存的依赖远超传统显存带宽。预取L2数据的速度远快于访问显存，缓存命中率也是关键。即便NVIDIA的神经网络预测准确度能达到50%，其性能提升也几乎等同于显存带宽翻倍。实际上，性能提升幅度可能不超过e^(0.5)-1。

之前的AMPERE架构A100的40MB L2缓存，为5120BIT的HBM显存提供缓冲，以减轻延迟与数据潮汐的影响。然而，ADA架构之后的显卡，不再简单地被理解为吞吐机。信息交换不再依赖显存，而是通过自带的缓存部分高速复用数据，实现了数据的快速生成与处理，DLSS3便是高速复用数据产出的典型应用。

单纯依靠大量缓存无法解决问题。有些数据能调用高速缓存，而有些则不能，线程同步等待慢数据，这使得瓶颈出现在流水线上。乱序执行，是提高流水线效率的关键。

数据中心卡的P2P交互：

虽然L40S砍掉了NVLINK，但与游戏卡需要通过CPU DMA到内存再传输至另一张卡的方式不同，L40S提供了卡间的P2P交互。这种交互对多卡训练至关重要，但具体测试还需多卡L40对比多卡4090，最好使用相同的主板（非4代志强）。至于4代志强的DSA加速与NV原生P2P的性能差距，还需进行测试。

缓存瓶颈与GPU存储展望：

HBM、片内缓存与可扩展存储是未来的趋势。HBM虽是未来，但成本高昂，COWOS封装良率一直未得到显著提升，GDDR目前尚无法被HBM取代。片内缓存是显卡性能提升的关键，NVIDIA的技术进步使得片内缓存暴涨，从每64bit分1MB提升至4060的24MB，L40S更是达到了96MB。核心面积虽有所缩减，CUDA单元数却大幅增加，L2缓存容量也提升了16倍。

对于神经网络，可扩展存储并非必要。大模型参数量虽大，但并未呈现爆炸性增长，神经网络的层数与参数传递次数应保持平衡。过多的参数传递可能导致模型收敛问题，因此，参数多与推理速度快并非冲突。当前大模型多由N卡训练，L40S的性能足以支撑这一需求。

P2P与Transformer引擎：

L40S支持P2P交互，能够实现多卡间的高速数据传输。4090等游戏卡同样具备P2P支持，但具体实现方式不同。L40S在设计时就考虑了多卡交互，支持通过PCIE Switch芯片实现P2P交互，而4090未集成这一功能。此外，L40S与4090均具备Transformer引擎支持，性能表现取决于NVIDIA是否激活使用。