问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

L40S解析,同是AD102核心为什么强于A800(A100)近2成性能

发布网友 发布时间:2024-09-29 07:05

我来回答

1个回答

热心网友 时间:2024-10-12 19:45

一张显卡,不以华丽配置示人,却以惊人性能与价格对比引发关注。这便是L40S,一款通过OEM渠道购得,价格接近1万美刀的被动散热显卡。L40S搭载AD102核心,却未配备NVLINK、PCIE5.0与HBM3显存,只与4090共享核心,搭配GDDR6(ECC)显存。显存带宽不足963G,甚至低于4090 GDDR6X 1008G的带宽,高出近10%。然而,L40S凭借这一配置,竟性能领先上一代AI旗舰卡A800(A100)近2成。

NVIDIA是如何实现这一壮举的?将消费级核心以万元价格销售,这究竟是如何做到的?或许,我们并未充分理解AD102的真正实力。4090所用的AD102-300核心,残血阉割16384个CUDA内核,配备16MB L1 Cache与72MB L2 Cache,已足以吊打3090TI。然而,完整版AD102拥有18496个CUDA内核,L1与L2缓存容量分别提升至18MB与96MB,相比4090提升了接近20%。

关键在于,现在的TensorCore对于L2缓存的依赖远超传统显存带宽。预取L2数据的速度远快于访问显存,缓存命中率也是关键。即便NVIDIA的神经网络预测准确度能达到50%,其性能提升也几乎等同于显存带宽翻倍。实际上,性能提升幅度可能不超过e^(0.5)-1。

之前的AMPERE架构A100的40MB L2缓存,为5120BIT的HBM显存提供缓冲,以减轻延迟与数据潮汐的影响。然而,ADA架构之后的显卡,不再简单地被理解为吞吐机。信息交换不再依赖显存,而是通过自带的缓存部分高速复用数据,实现了数据的快速生成与处理,DLSS3便是高速复用数据产出的典型应用。

单纯依靠大量缓存无法解决问题。有些数据能调用高速缓存,而有些则不能,线程同步等待慢数据,这使得瓶颈出现在流水线上。乱序执行,是提高流水线效率的关键。

数据中心卡的P2P交互:

虽然L40S砍掉了NVLINK,但与游戏卡需要通过CPU DMA到内存再传输至另一张卡的方式不同,L40S提供了卡间的P2P交互。这种交互对多卡训练至关重要,但具体测试还需多卡L40对比多卡4090,最好使用相同的主板(非4代志强)。至于4代志强的DSA加速与NV原生P2P的性能差距,还需进行测试。

缓存瓶颈与GPU存储展望:

HBM、片内缓存与可扩展存储是未来的趋势。HBM虽是未来,但成本高昂,COWOS封装良率一直未得到显著提升,GDDR目前尚无法被HBM取代。片内缓存是显卡性能提升的关键,NVIDIA的技术进步使得片内缓存暴涨,从每64bit分1MB提升至4060的24MB,L40S更是达到了96MB。核心面积虽有所缩减,CUDA单元数却大幅增加,L2缓存容量也提升了16倍。

对于神经网络,可扩展存储并非必要。大模型参数量虽大,但并未呈现爆炸性增长,神经网络的层数与参数传递次数应保持平衡。过多的参数传递可能导致模型收敛问题,因此,参数多与推理速度快并非冲突。当前大模型多由N卡训练,L40S的性能足以支撑这一需求。

P2P与Transformer引擎:

L40S支持P2P交互,能够实现多卡间的高速数据传输。4090等游戏卡同样具备P2P支持,但具体实现方式不同。L40S在设计时就考虑了多卡交互,支持通过PCIE Switch芯片实现P2P交互,而4090未集成这一功能。此外,L40S与4090均具备Transformer引擎支持,性能表现取决于NVIDIA是否激活使用。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
中美有什么经济冲突 杨凌衡水实验中学高中学费是多少 蒂芙尼珍珠项链怎么清洗和保养? tiffany&co 的缺点 如何保养蒂芙尼的项链? tiffany保养要多久时间 Tiffany珠宝需要多长时间保养? 人为什么活着,怎样活着都是无憾!! 孩子犟的不行家长怎么教育 有什么比较好用的游戏视频录制软件? 适用于Windows的10个好用的游戏录制软件 英伟达推出超算芯片HGX H200 GPU和Grace Hopper GH200,再一次实现遥遥... 为什么4090显卡会下架 nvidia的显卡哪个好一些? nvidia的a100等于几张4090显卡 眼睛屈光度正常范围 眼睛屈光度是什么意思 眼科-2.00是什么意思? 张家港教育机构有哪些 张家港有哪些培训学校 幼儿园日常教育包括哪些方面呢?需要注意哪些细节? 普通人到底要不要买商业保险? 普通人买什么保险合适?这些保障千万不能少! 系统重装,不重新分区无法重装。 麦乳精的原料性质 ...刷屏是60桌面都抖,现在调了75桌面不抖了,玩WOW就抖动了 我的是14寸 16:9的 屏幕。但是玩WOW 和看视频全屏的时候,右边总是露出... 电脑无分区怎么安装系统? 小兵的兵的偏旁是什么 真实犯罪:独角杀手游戏简介 真实罪行之独角兽杀手游戏介绍 什么样的显卡适合AI应用场景? ...可爱的女孩,唉!一次我忍不住向她表白!现在有不知道怎么追她!那位... ...我一个人,突然跑过来对我说考试加油,还聊了不久,她是对我有... 电脑逃跑吧少年怎么复制粘贴兑 逃跑吧少年字体怎么变大 高二电容中C=Q\U中.改变极板间的距离d.求E.U.C的变化 求懂的人解答一... 龟头上有红点还痒是怎么回事 她是谁阿, 求一明星名. 好可爱,应该是日韩的吧 谁知道她是哪个韩国明星啊 ...八字偏强,八字喜土,起名最好用五行属性为土的字,男孩姓叶,请专家帮... 关于初学水粉画需要准备的材料 石板滩镇经济发展 石板滩镇石板滩镇现在 开机日期就变成1997.1.18,是什么病毒 石板滩火车站简介 我快手关注别人怎么显示对方拒绝我该怎么办 石板滩中学所获荣誉 利息怎么公式是什么 婚纱照 风格有哪些 结婚照的风格有哪些