L40S解析,同是AD102核心为什么强于A800(A100)近2成性能
发布网友
发布时间:2024-09-29 07:05
我来回答
共1个回答
热心网友
时间:2024-10-12 19:45
一张显卡,不以华丽配置示人,却以惊人性能与价格对比引发关注。这便是L40S,一款通过OEM渠道购得,价格接近1万美刀的被动散热显卡。L40S搭载AD102核心,却未配备NVLINK、PCIE5.0与HBM3显存,只与4090共享核心,搭配GDDR6(ECC)显存。显存带宽不足963G,甚至低于4090 GDDR6X 1008G的带宽,高出近10%。然而,L40S凭借这一配置,竟性能领先上一代AI旗舰卡A800(A100)近2成。
NVIDIA是如何实现这一壮举的?将消费级核心以万元价格销售,这究竟是如何做到的?或许,我们并未充分理解AD102的真正实力。4090所用的AD102-300核心,残血阉割16384个CUDA内核,配备16MB L1 Cache与72MB L2 Cache,已足以吊打3090TI。然而,完整版AD102拥有18496个CUDA内核,L1与L2缓存容量分别提升至18MB与96MB,相比4090提升了接近20%。
关键在于,现在的TensorCore对于L2缓存的依赖远超传统显存带宽。预取L2数据的速度远快于访问显存,缓存命中率也是关键。即便NVIDIA的神经网络预测准确度能达到50%,其性能提升也几乎等同于显存带宽翻倍。实际上,性能提升幅度可能不超过e^(0.5)-1。
之前的AMPERE架构A100的40MB L2缓存,为5120BIT的HBM显存提供缓冲,以减轻延迟与数据潮汐的影响。然而,ADA架构之后的显卡,不再简单地被理解为吞吐机。信息交换不再依赖显存,而是通过自带的缓存部分高速复用数据,实现了数据的快速生成与处理,DLSS3便是高速复用数据产出的典型应用。
单纯依靠大量缓存无法解决问题。有些数据能调用高速缓存,而有些则不能,线程同步等待慢数据,这使得瓶颈出现在流水线上。乱序执行,是提高流水线效率的关键。
数据中心卡的P2P交互:
虽然L40S砍掉了NVLINK,但与游戏卡需要通过CPU DMA到内存再传输至另一张卡的方式不同,L40S提供了卡间的P2P交互。这种交互对多卡训练至关重要,但具体测试还需多卡L40对比多卡4090,最好使用相同的主板(非4代志强)。至于4代志强的DSA加速与NV原生P2P的性能差距,还需进行测试。
缓存瓶颈与GPU存储展望:
HBM、片内缓存与可扩展存储是未来的趋势。HBM虽是未来,但成本高昂,COWOS封装良率一直未得到显著提升,GDDR目前尚无法被HBM取代。片内缓存是显卡性能提升的关键,NVIDIA的技术进步使得片内缓存暴涨,从每64bit分1MB提升至4060的24MB,L40S更是达到了96MB。核心面积虽有所缩减,CUDA单元数却大幅增加,L2缓存容量也提升了16倍。
对于神经网络,可扩展存储并非必要。大模型参数量虽大,但并未呈现爆炸性增长,神经网络的层数与参数传递次数应保持平衡。过多的参数传递可能导致模型收敛问题,因此,参数多与推理速度快并非冲突。当前大模型多由N卡训练,L40S的性能足以支撑这一需求。
P2P与Transformer引擎:
L40S支持P2P交互,能够实现多卡间的高速数据传输。4090等游戏卡同样具备P2P支持,但具体实现方式不同。L40S在设计时就考虑了多卡交互,支持通过PCIE Switch芯片实现P2P交互,而4090未集成这一功能。此外,L40S与4090均具备Transformer引擎支持,性能表现取决于NVIDIA是否激活使用。