深度解读ARM新架构:大核进取、小核摆烂?

发布网友发布时间：2022-10-08 04:58

共1个回答

热心网友时间：2023-11-17 13:01

众所周知，对于如今的绝大多数的智能手机、平板电脑，以及部分笔记本电脑产品来说，ARM可以说是“一切的源头”。高通与三星的SoC近年来一直使用着ARM公版的CPU设计，而被公认“翻身”了的联发科，则靠的是ARM公版的CPU与GPU架构，甚至就连一向标榜“自研”的苹果，实际上也离不开ARM的基础指令集授权。

正因如此，当ARM方面在2022年6月28日晚间，毫无预兆地突然发布了全新一代的架构方案后，自然也值得我们去进行进一步的分析。

性能概况：大核更强、中核更省，GPU加入硬件光追

开门见山，我们先直接为大家带来ARM这一代新架构的性能相关信息。并且非常令人感叹的是，ARM此次在公布新老架构性能对比数据时居然不再“玩巧”，事实上，他们给出了可能是史上最详细的性能对比参数。

首先，是全新的Cortex-X3大核。在使用了完全相同半导*程、主频和缓存设计的前提下，Cortex-X3的性能比Cortex-X2可以提升11%。

在使用完全相同半导*程，但主频和缓存设计按照新老架构的不同典型值做对比时，Cortex-X3的性能比Cortex-X2可提升22%。

如果再考虑到制程方面的因素，比如假设Cortex-X3采用新的台积电3nm工艺情况下，此时对比采用台积电4nm工艺、且主频与缓存采用现有设计的Cortex-X2时，那么新架构的性能领先幅度则会达到25%。

其次，是改进型的Cortex-A715中核，在使用相同半导*程、相同主频和缓存设计的前提下，新的中核性能相比老设计仅有5%的提升，但请注意，此时的能效会比老架构高出20%。也就是说其实际功耗此时为Cortex-A710的87.5%，在性能略微提升的前提下省电了12.5%，算是比较明显的进步了。

相比于大核与中核的显著改进，新架构里Cortex-A510小核的改进就比较微妙了。一方面，正如其名称所示的那样，此次的新版小核还是叫做“Cortex-A510”，连名字都没变。但另一方面，要说它完全没改又不太对，因为新版的小核功耗比老版本下降了5%，同时更为重要的是，其此次加上了对32位应用的兼容性。

但请注意的是，这个兼容性功能是可选特性，并非标配。选配后是有可能会给性能带来负面影响的，但具体影响有多少，ARM方面并没有明确。

除了新版的CPU，ARM此次也同期发布了换代的GPU方案。这一次，新的GPU设计被分为了三档，分别是“顶配”的Immortalis（不朽）-G715、中配的Mali-G715，以及入门级的Mali-G615。

与本世代的Mali-G710和Mali-G610相比，新架构首先带来了15%的基础效率提升（而且是不考虑制程增益的情况下），其次还支持了VRS可变着色率技术，能够在部分高刷游戏中显著降低渲染负载、对于XR应用也有很大的意义。

不仅如此，作为ARM的全新旗舰GPU产品，Immortalis-G715更是首次引入了硬件光线追踪单元。根据ARM方面的说法，硬件光追单元在GPU核心中仅占据了4%的面积，但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升。考虑到真正支持Mali-G710光追效果的游戏至今尚未上市，所以ARM的这番表述属实是“背刺”自己了。

架构分析：大核更大、中核做减法，小核原地踏步

讲完了新架构的性能参数变化，接下来我们就进入按惯例的架构分析环节，来看看ARM到底是如何实现这些改进的。

首先是全新的大核Cortex-X3，它的改动无疑是此次新架构中最大的。其包括了比前代大10倍的L0 BTB（分支目标缓冲区）和大50%的L1 BTB，这意味着大幅提高的分支预测性能。根据官方的说法，Cortex-X3的分支预测延迟降低了12.2%，预测错误率降低了6%，同时减少了3%的前段停顿。由于分支预测性能大为提升，因此Cortex-X3的mop（微操作）缓存现在可以做得更小，同时流水线长度也进一步下降。

这还没完，与Cortex-X2相比，Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个，同时乱序窗口也进一步增大。而在后端部分，新架构的加载/存储宽度也增加了50%，并增多了数据预取引擎的数量。

更强的分支预测性能，更宽的执行窗口、更短的流水线级别，更快的存取速度，有没有觉得很眼熟？没错，这个改进方向，其实就是多年前已被Intel从奔腾4到酷睿的革新时，所证明的有效路径，只不过ARM如今将其在RISC处理器上“复刻”了一遍。

相比于Cortex-X3的锐意进取，Cortex-A715与（新版）Cortex-A510的改变就相对没有那么大了。其中，Cortex-A715的改进主要来自于放弃对32位指令集的支持，从而大幅简化了指令解码器的设计，空出更多的晶体管位置来提高了缓存大小。而Cortex-A510的变化则更是语焉不详，现在只知道它具备了可选的32位支持、同时功耗略微下降而已。

与CPU部分（特别是大核心）的改动相比，ARM此次的新GPU变化显得就不是那么显著了。一方面，无论是Immortalis-G715、Mali-G715，还是Mali-G615，它们其实都是共享的相同架构设计（只是Immortalis-G715内部多了硬件光追电路），主要区别还是在于核心数量上做了明确*。

另一方面，与现有的Mali-G710相比，新款GPU在基础架构上将FMA乘加单元的数量翻了一倍，设计了用于抗锯齿的新型FP16计算单元。同时根据ARM方面的说法，新的GPU“在重负载场景下”的三角形生成率为现有的3倍，纹理映射速度是现有的2倍。不过，暂时还并不清楚这个倍数是来自底层架构的改进，还是来自于核心数量或频率的提升，因此仅仅做个参考就好。真正的GPU性能提升幅度，还得等到实际产品上市后才能有定论。

市场分析：ARM笔记本或将兴起，入门手机也有望翻身

值得一提的是，在发布新一代产品线的同时，ARM还给自家的软硬件方案起了一个新的名字，叫做“Arm Total Compute Solutions（直译为ARM整体计算解决方案）2022”，缩写为ARM TCS22。同时，ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21，并同时预告了明年（TCS23）和后年（TCS24）的产品命名。

这意味着什么呢？从这个举动中，我们至少可以挖掘出两条信息点。一是ARM似乎并不打算用新架构完全取代上一代的产品线，Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续。

但更进一步来说，ARM从TCS21到TCS22的变化，以及目前官方已经“剧透”的TCS23和TCS24不难发现，一方面ARM在TCS22（也就是这一代的新架构上）删除了中核（Cortex-A715）对32位计算的支持，同时为“新版的”Cortex-A510小核增加了“可选的”32位计算功能。

另一方面，在TCS23和TCS24的预告图里可以清楚地看到，接下来的两年里，ARM每年都会更新大核与中核设计，但小核却只会在2023年迎来一次换代，2024年则是不更新、直接沿用。

与此同时，在此次TCS22官方“样板设计”中，ARM不仅将新架构支持的最大核心数量从8核扩展到了12核，而且还给出了多个以大核、中核为主的组合方案，甚至出现了完全不采用A510小核，仅由大核与中核构成的“超高性能设计”。

这或许意味着，ARM“仗着”新架构，特别是大核（Cortex-X3）、中核（Cortex-A715）性能与能效比的显著改善，明显在有意将其往更高的市场定位上推。或许，未来我们就会看到更多基于ARM新架构的笔记本电脑SoC方案了。

其实回溯历史不难发现，此前的Cortex-A53架构用了四年（2014-2017）才换代，而Cortex-A55架构更是“坚挺”了至少五年（2018-2022）之久。相比之下，去年的“初版”Cortex-A510架构因为完全不兼容32位代码，其实并不适合入门级设备与其他低功耗设备使用。

如此一来，今年的“新版”Cortex-A510实际上才是ARM v9指令集下，第一款真正可以用于入门级设备的低功耗CPU架构设计。而最快到明年，它就将会被更新的架构所取代。

换句话来说，面对如今智能手机市场高端产品大放光彩、而入门级设备却销量萎缩的局面，ARM一方面通过新的大核、中核为新旗舰注入了体验继续进步的动力，另一方面也史无前例地针对低端市场进行了“补救”。

或许在不久后，我们就会看到基于（新版）Cortex-A510架构，体验明显更加靠谱的入门级主控，或是性能与能效比都大幅进步，总算能与苹果掰掰手腕的Android智能手表平台了。