发布网友 发布时间:2022-12-26 23:33
共1个回答
热心网友 时间:2023-04-24 10:01
这应该是今年八月的Hotchips 30最让笔者深感震撼的议程了,虽然Fujitsu早在今年六月就已经透露了「京」超级电脑后继者的相关讯息,但这对处理器市场造成的冲击,依旧余波荡扬。
A64FX并非只是将「电脑的语言」—指令集架构—更替为Arm v8.2-A与SVE的SPARC64 XIfx,隐藏在「最强Arm处理器」响亮名号的背后,有太多值得各位科科慢慢吸收的「弦外之音」,比帐面上的硬体规格更加的重要。
在伺服器大厂纷纷放弃自主开发处理器的这些年,日本Fujitsu依旧持之以恒的研发GS系列大型主机、Unix伺服器使用的SPARC64处理器、与因应「京 (K)」超级电脑的高效能运算需求而衍生出来的SPARC64fx系列。
看了这么多年喊着要搞「Arm伺服器」的晶片公司搞出一堆根本就不成气候的产品设计,Fujitsu将其SPARC处理器的「语言」替换成Arm指令集架构,总算一口气让Arm处理器直登顶峰—高阶企业伺服器的高效能,与大型主机等级的可靠度,作为「后京 (Post-K)」时代的日系超级电脑心脏。
即使超级电脑应用不等同于企业伺服器,但支撑A64FX的技术,已足以和其他的高阶RISC伺服器和CISC大型主机平起平坐,且更具有「有效引进最新技术以缩短产品开发时程与降低成本」的特色。
A64FX处理器将使用7nm FinFET制程生产,87.86亿个电晶体,预定应用于2021年量产出货的日本新一代超级电脑,目标将实现2011年「京」超级电脑的一百倍性能。
A64FX使用「纯64位元」的Arm-v8.2-A指令集,浮点运算使用支援512位元的SVE执行单元。浮点理论运算性能可达2.7T Flops,是前代的SPARC XIfx处理器1.1T Flops的2.5倍左右。
延续SPARC64 XIfx的基本设计,A64FX总计有48个计算核心及4个用来处理I/O的辅助核心,分为四个CMG单元,每个单元13 (12 计算+ 1辅助) 个核心,共用8MB第二阶快取记忆体,配备8GB容量HBM2记忆体,理论记忆体频宽256GB/s。换言之,A64FX总计32MB第二阶快取记忆体,32GB容量 HBM2,1024GB/s记忆体理论频宽,共用16条PCIe 3.0通道。
眼尖的科科绝对会发现快取记忆体的频宽是「读多写少」,请动点脑想想高效能运算的特性吧。
连接运算单元的多处理器汇流排,一向是超级电脑的技术重头戏,「京」超级电脑的处理器通过名为「豆腐 (Tofu)」的特殊6D Mesh / Torus网路连线在一起,A64FX采用的是第三代的「豆腐 (Tofu3)」,单埠7GB/s理论频宽 (28Gbps x 2 Lane),10埠总计为进/出个别70GB/s,由下图大概可以了解整个多处理器网路的外貌,一个机柜可置入384颗A64FX,总计多达18432个运算核心。
Arm SVE指令集有个特色,特别值得拿出来聊一聊。
受制于指令编码空间有限,难以为了所有的运算元,挤出指定的位元 (如需要5位元才能标定32个暂存器,四个运算元就会吃掉20位元),*做出牺牲的三运算元浮点乘积和指令 (A x B + C = C),会覆盖掉原本C运算元内的内容,如要保留,就得大费周章先「备份」到其他的地方。
MOVPRFX指令则可先在三运算元浮点乘积和指令前,设置一个前制码「更名」其中一个运算元,转变成4运算元的浮点乘积和。
原本想做的运算:
(Z1 x Z2) + Z3 = Z0
但如果直接用现有指令做 (Z1 x Z2) + Z3 = Z3,就会摧毁掉Z3原本的内容,所以:
用MOVPREX将Z3改名为Z0,接连再执行(Z1 x Z2) + Z0 = Z0,实际上就变成:
(Z1 x Z2) + Z3 = Z0,皆大欢喜。
而A64FX的内部执行单元设计,就直接把接连两个指令合并为一,隐藏掉执行两个指令的额外延迟。
前面有提到A64FX的微架构和基础设计沿自SPARC64 XIfx,那我们就来瞧瞧,两者到底有多么的像,像到根本是同一个模子刻出来的。
指令管线与执行单元规划:
CMG分区设计:
大型主机等级的资料可用性,ECC单位元错误修正和Parity纠错机制,让整颗晶片大部分都受到资料保护:
指令集架构换了,当然软体应用环境也要跟着改版,Fujitsu与自从「京」开始一同研发超级电脑的理化学研究所 (简称「理研」) 也开始合作开发新的环境,包含针对处理器微架构、新指令集与HBM2记忆体最佳化的编译器。
最后,写了这么多,那各位科科一定很想知道笔者,在文初暗示的「 比帐面上硬体规格更重要的弦外之音」并「有效引进最新技术以缩短产品开发时程与降低成本」,到底是何等天大的秘密,说穿了也只有一句话:
其实这也是IBM BlueGene/L十多年前可以独领 *** 的秘诀,采用高度整合SoC化的运算节点,并充分延续现有Power家族处理器的研发成果,以实现更好的空间利用密度与系统组装速度,而A64FX就完全承袭了这样的思维,从两个小地方,即可略见一斑:
7nm FinFET制程与Arm生态系统: 我们有87%的信心,相信A64FX将由台积电代工,这也意味着,Fujitsu可以直接沿用早被Apple和诸多客户千锤百炼的电子辅助设计工具、功能模块和相关函式库,借由成熟的「研发供应炼」,迅速完成产品的研发与验证,并且降低成本。
HBM2记忆体: 如同Google的第二代TPU,Fujitsu透过因显示晶片市场而逐渐成熟的HBM2,大幅精简了运算节点的体积,简化新一代超级电脑的内部结构,加快出货后的建造与布署速度。
「最强Arm处理器」A64FX毕竟还是研发中的产品,当晶片真正tape out并样品问世时,大概看起来也不会像现在这么厉害了,但它的存在,象征著Arm指令集也能享有高阶伺服器等级的实作,假以时日,当「Arm伺服器生态系统」真的水到渠成,恐怕市场上将不缺能与同期IBM和x86处理器抗衡的先进产品。SPARC64fx可以更换指令集,那为何企业伺服器SPARC64就不行?更何况两者统一,之后更能节约研发资源。
至于Fujitsu迈出这巨大的一步,是否代表SPARC指令集和Solaris作业系统即将走到生命的尽头?就让时间告诉我们最后的答案,但可能也不需要了。