硬科技:Arm迈向高阶伺服器最伟大的一步:Fujitsu A64FX

发布网友发布时间：2022-12-26 23:33

共1个回答

热心网友时间：2023-04-24 10:01

这应该是今年八月的Hotchips 30最让笔者深感震撼的议程了，虽然Fujitsu早在今年六月就已经透露了「京」超级电脑后继者的相关讯息，但这对处理器市场造成的冲击，依旧余波荡扬。

A64FX并非只是将「电脑的语言」—指令集架构—更替为Arm v8.2-A与SVE的SPARC64 XIfx，隐藏在「最强Arm处理器」响亮名号的背后，有太多值得各位科科慢慢吸收的「弦外之音」，比帐面上的硬体规格更加的重要。

在伺服器大厂纷纷放弃自主开发处理器的这些年，日本Fujitsu依旧持之以恒的研发GS系列大型主机、Unix伺服器使用的SPARC64处理器、与因应「京 (K)」超级电脑的高效能运算需求而衍生出来的SPARC64fx系列。

看了这么多年喊着要搞「Arm伺服器」的晶片公司搞出一堆根本就不成气候的产品设计，Fujitsu将其SPARC处理器的「语言」替换成Arm指令集架构，总算一口气让Arm处理器直登顶峰—高阶企业伺服器的高效能，与大型主机等级的可靠度，作为「后京 (Post-K)」时代的日系超级电脑心脏。

即使超级电脑应用不等同于企业伺服器，但支撑A64FX的技术，已足以和其他的高阶RISC伺服器和CISC大型主机平起平坐，且更具有「有效引进最新技术以缩短产品开发时程与降低成本」的特色。

A64FX处理器将使用7nm FinFET制程生产，87.86亿个电晶体，预定应用于2021年量产出货的日本新一代超级电脑，目标将实现2011年「京」超级电脑的一百倍性能。

A64FX使用「纯64位元」的Arm-v8.2-A指令集，浮点运算使用支援512位元的SVE执行单元。浮点理论运算性能可达2.7T Flops，是前代的SPARC XIfx处理器1.1T Flops的2.5倍左右。

延续SPARC64 XIfx的基本设计，A64FX总计有48个计算核心及4个用来处理I/O的辅助核心，分为四个CMG单元，每个单元13 (12 计算+ 1辅助) 个核心，共用8MB第二阶快取记忆体，配备8GB容量HBM2记忆体，理论记忆体频宽256GB/s。换言之，A64FX总计32MB第二阶快取记忆体，32GB容量 HBM2，1024GB/s记忆体理论频宽，共用16条PCIe 3.0通道。

眼尖的科科绝对会发现快取记忆体的频宽是「读多写少」，请动点脑想想高效能运算的特性吧。

连接运算单元的多处理器汇流排，一向是超级电脑的技术重头戏，「京」超级电脑的处理器通过名为「豆腐 (Tofu)」的特殊6D Mesh / Torus网路连线在一起，A64FX采用的是第三代的「豆腐 (Tofu3)」，单埠7GB/s理论频宽 (28Gbps x 2 Lane)，10埠总计为进/出个别70GB/s，由下图大概可以了解整个多处理器网路的外貌，一个机柜可置入384颗A64FX，总计多达18432个运算核心。

Arm SVE指令集有个特色，特别值得拿出来聊一聊。

受制于指令编码空间有限，难以为了所有的运算元，挤出指定的位元 (如需要5位元才能标定32个暂存器，四个运算元就会吃掉20位元)，*做出牺牲的三运算元浮点乘积和指令 (A x B + C = C)，会覆盖掉原本C运算元内的内容，如要保留，就得大费周章先「备份」到其他的地方。

MOVPRFX指令则可先在三运算元浮点乘积和指令前，设置一个前制码「更名」其中一个运算元，转变成4运算元的浮点乘积和。

原本想做的运算：

(Z1 x Z2) + Z3 = Z0

但如果直接用现有指令做 (Z1 x Z2) + Z3 = Z3，就会摧毁掉Z3原本的内容，所以：

用MOVPREX将Z3改名为Z0，接连再执行(Z1 x Z2) + Z0 = Z0，实际上就变成：

(Z1 x Z2) + Z3 = Z0，皆大欢喜。

而A64FX的内部执行单元设计，就直接把接连两个指令合并为一，隐藏掉执行两个指令的额外延迟。

前面有提到A64FX的微架构和基础设计沿自SPARC64 XIfx，那我们就来瞧瞧，两者到底有多么的像，像到根本是同一个模子刻出来的。

指令管线与执行单元规划：

CMG分区设计：

大型主机等级的资料可用性，ECC单位元错误修正和Parity纠错机制，让整颗晶片大部分都受到资料保护：

指令集架构换了，当然软体应用环境也要跟着改版，Fujitsu与自从「京」开始一同研发超级电脑的理化学研究所 (简称「理研」) 也开始合作开发新的环境，包含针对处理器微架构、新指令集与HBM2记忆体最佳化的编译器。

最后，写了这么多，那各位科科一定很想知道笔者，在文初暗示的「比帐面上硬体规格更重要的弦外之音」并「有效引进最新技术以缩短产品开发时程与降低成本」，到底是何等天大的秘密，说穿了也只有一句话：

超级电脑市场较量的不只是效能和耗电，「研发时程」与「建造速度」也同样重要。

其实这也是IBM BlueGene/L十多年前可以独领 *** 的秘诀，采用高度整合SoC化的运算节点，并充分延续现有Power家族处理器的研发成果，以实现更好的空间利用密度与系统组装速度，而A64FX就完全承袭了这样的思维，从两个小地方，即可略见一斑：

7nm FinFET制程与Arm生态系统： 我们有87%的信心，相信A64FX将由台积电代工，这也意味着，Fujitsu可以直接沿用早被Apple和诸多客户千锤百炼的电子辅助设计工具、功能模块和相关函式库，借由成熟的「研发供应炼」，迅速完成产品的研发与验证，并且降低成本。

HBM2记忆体： 如同Google的第二代TPU，Fujitsu透过因显示晶片市场而逐渐成熟的HBM2，大幅精简了运算节点的体积，简化新一代超级电脑的内部结构，加快出货后的建造与布署速度。

「最强Arm处理器」A64FX毕竟还是研发中的产品，当晶片真正tape out并样品问世时，大概看起来也不会像现在这么厉害了，但它的存在，象征著Arm指令集也能享有高阶伺服器等级的实作，假以时日，当「Arm伺服器生态系统」真的水到渠成，恐怕市场上将不缺能与同期IBM和x86处理器抗衡的先进产品。SPARC64fx可以更换指令集，那为何企业伺服器SPARC64就不行？更何况两者统一，之后更能节约研发资源。

至于Fujitsu迈出这巨大的一步，是否代表SPARC指令集和Solaris作业系统即将走到生命的尽头？就让时间告诉我们最后的答案，但可能也不需要了。