问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

硬科技:Arm迈向高阶伺服器最伟大的一步:Fujitsu A64FX

发布网友 发布时间:2022-12-26 23:33

我来回答

1个回答

热心网友 时间:2023-04-24 10:01

这应该是今年八月的Hotchips 30最让笔者深感震撼的议程了,虽然Fujitsu早在今年六月就已经透露了「京」超级电脑后继者的相关讯息,但这对处理器市场造成的冲击,依旧余波荡扬。

A64FX并非只是将「电脑的语言」—指令集架构—更替为Arm v8.2-A与SVE的SPARC64 XIfx,隐藏在「最强Arm处理器」响亮名号的背后,有太多值得各位科科慢慢吸收的「弦外之音」,比帐面上的硬体规格更加的重要。

在伺服器大厂纷纷放弃自主开发处理器的这些年,日本Fujitsu依旧持之以恒的研发GS系列大型主机、Unix伺服器使用的SPARC64处理器、与因应「京 (K)」超级电脑的高效能运算需求而衍生出来的SPARC64fx系列。

看了这么多年喊着要搞「Arm伺服器」的晶片公司搞出一堆根本就不成气候的产品设计,Fujitsu将其SPARC处理器的「语言」替换成Arm指令集架构,总算一口气让Arm处理器直登顶峰—高阶企业伺服器的高效能,与大型主机等级的可靠度,作为「后京 (Post-K)」时代的日系超级电脑心脏。

即使超级电脑应用不等同于企业伺服器,但支撑A64FX的技术,已足以和其他的高阶RISC伺服器和CISC大型主机平起平坐,且更具有「有效引进最新技术以缩短产品开发时程与降低成本」的特色。

A64FX处理器将使用7nm FinFET制程生产,87.86亿个电晶体,预定应用于2021年量产出货的日本新一代超级电脑,目标将实现2011年「京」超级电脑的一百倍性能。

A64FX使用「纯64位元」的Arm-v8.2-A指令集,浮点运算使用支援512位元的SVE执行单元。浮点理论运算性能可达2.7T Flops,是前代的SPARC XIfx处理器1.1T Flops的2.5倍左右。

延续SPARC64 XIfx的基本设计,A64FX总计有48个计算核心及4个用来处理I/O的辅助核心,分为四个CMG单元,每个单元13 (12 计算+ 1辅助) 个核心,共用8MB第二阶快取记忆体,配备8GB容量HBM2记忆体,理论记忆体频宽256GB/s。换言之,A64FX总计32MB第二阶快取记忆体,32GB容量 HBM2,1024GB/s记忆体理论频宽,共用16条PCIe 3.0通道。

眼尖的科科绝对会发现快取记忆体的频宽是「读多写少」,请动点脑想想高效能运算的特性吧。

连接运算单元的多处理器汇流排,一向是超级电脑的技术重头戏,「京」超级电脑的处理器通过名为「豆腐 (Tofu)」的特殊6D Mesh / Torus网路连线在一起,A64FX采用的是第三代的「豆腐 (Tofu3)」,单埠7GB/s理论频宽 (28Gbps x 2 Lane),10埠总计为进/出个别70GB/s,由下图大概可以了解整个多处理器网路的外貌,一个机柜可置入384颗A64FX,总计多达18432个运算核心。

Arm SVE指令集有个特色,特别值得拿出来聊一聊。

受制于指令编码空间有限,难以为了所有的运算元,挤出指定的位元 (如需要5位元才能标定32个暂存器,四个运算元就会吃掉20位元),*做出牺牲的三运算元浮点乘积和指令 (A x B + C = C),会覆盖掉原本C运算元内的内容,如要保留,就得大费周章先「备份」到其他的地方。

MOVPRFX指令则可先在三运算元浮点乘积和指令前,设置一个前制码「更名」其中一个运算元,转变成4运算元的浮点乘积和。

原本想做的运算:

(Z1 x Z2) + Z3 = Z0

但如果直接用现有指令做 (Z1 x Z2) + Z3 = Z3,就会摧毁掉Z3原本的内容,所以:

用MOVPREX将Z3改名为Z0,接连再执行(Z1 x Z2) + Z0 = Z0,实际上就变成:

(Z1 x Z2) + Z3 = Z0,皆大欢喜。

而A64FX的内部执行单元设计,就直接把接连两个指令合并为一,隐藏掉执行两个指令的额外延迟。

前面有提到A64FX的微架构和基础设计沿自SPARC64 XIfx,那我们就来瞧瞧,两者到底有多么的像,像到根本是同一个模子刻出来的。

指令管线与执行单元规划:

CMG分区设计:

大型主机等级的资料可用性,ECC单位元错误修正和Parity纠错机制,让整颗晶片大部分都受到资料保护:

指令集架构换了,当然软体应用环境也要跟着改版,Fujitsu与自从「京」开始一同研发超级电脑的理化学研究所 (简称「理研」) 也开始合作开发新的环境,包含针对处理器微架构、新指令集与HBM2记忆体最佳化的编译器。

最后,写了这么多,那各位科科一定很想知道笔者,在文初暗示的「 比帐面上硬体规格更重要的弦外之音」并「有效引进最新技术以缩短产品开发时程与降低成本」,到底是何等天大的秘密,说穿了也只有一句话:

超级电脑市场较量的不只是效能和耗电,「研发时程」与「建造速度」也同样重要。

其实这也是IBM BlueGene/L十多年前可以独领 *** 的秘诀,采用高度整合SoC化的运算节点,并充分延续现有Power家族处理器的研发成果,以实现更好的空间利用密度与系统组装速度,而A64FX就完全承袭了这样的思维,从两个小地方,即可略见一斑:

7nm FinFET制程与Arm生态系统: 我们有87%的信心,相信A64FX将由台积电代工,这也意味着,Fujitsu可以直接沿用早被Apple和诸多客户千锤百炼的电子辅助设计工具、功能模块和相关函式库,借由成熟的「研发供应炼」,迅速完成产品的研发与验证,并且降低成本。

HBM2记忆体: 如同Google的第二代TPU,Fujitsu透过因显示晶片市场而逐渐成熟的HBM2,大幅精简了运算节点的体积,简化新一代超级电脑的内部结构,加快出货后的建造与布署速度。

「最强Arm处理器」A64FX毕竟还是研发中的产品,当晶片真正tape out并样品问世时,大概看起来也不会像现在这么厉害了,但它的存在,象征著Arm指令集也能享有高阶伺服器等级的实作,假以时日,当「Arm伺服器生态系统」真的水到渠成,恐怕市场上将不缺能与同期IBM和x86处理器抗衡的先进产品。SPARC64fx可以更换指令集,那为何企业伺服器SPARC64就不行?更何况两者统一,之后更能节约研发资源。

至于Fujitsu迈出这巨大的一步,是否代表SPARC指令集和Solaris作业系统即将走到生命的尽头?就让时间告诉我们最后的答案,但可能也不需要了。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
谁能告诉我这个正常价格是多少合适?谢谢 ...不恐高 后来做梦梦到我从楼上掉下来后 我就恐高了 我乘飞机不会害怕... dota2怎么申请序列号 幸福生日祝福语短信 生日送朋友短信祝福语 送给牵挂友人的生日祝福语 雷神托尔托尔的家庭 前程无忧如何撤回投出去的简历 撤回投出去的简历方法 最能打动顾客的十句话 拉近客户关系的十句话 让顾客心动的句子有... 油桃怎么挑才更甜好剥 油桃的挑选方法 我是个魔兽盗贼新手 问一下在那里赚钱??? 学生能不能下载企业微信登录家长的上课 小孩三岁上幼儿园注意力不集中,看电视可专心怎么办? 蚩尤手下四大魔将 穷奇帮助坏人专和好人作对 上古时代十大神兵是什么? 蚩尤的十大凶兵 葱炒小河虾的家常做法大全怎么做好 市属事业单位是啥意思 bak文件怎么打开(bak文件是什么?) 我的电脑桌面上的快捷方式上怎么没有个小箭头? 无线信号差怎么办 哪些人不能吃菠萝 怎样拿一个圆形盒子变废为宝送给姐姐 火车票查询十一月三十口哈什到成都火车票有吗? k454放票时间 k454次列车经过车站表 我的手机为什么来电铃一响,闪光灯跟着闪是怎么一回事?手机来电闪光 iphone4 5.0 来电铃设置! 企业怎么注销? 梦见自己在睡觉的时候有一只狼从窗子里跳进来钻到我的被子底下不见了 菊花枸杞茶的功效与作用及禁忌有哪些 香椿芽如何存放 香椿芽怎么保存比较好 香椿芽存放方法 低帮袜子与硅胶袜子的区别 夏天穿高帮袜还是低帮袜好呢? 有意义的女生名字 有寓意的字 女孩子有意义的名字? 笔记本截屏存在哪里 南京科巷附近有没有修手机的 南京科巷有手机维修店吗 南京联想手机维修店在哪? 浮字怎么写 请问附件怎么写? 王者荣耀古风诗意名字大全个性七字,王者荣耀古风诗意名字大全个性七字 肠道吻合术用的吻合器 术后肠漏一天400ml应该怎么治疗 不手术能自己愈合吗 什么是法律援助六年级上册 火星简介!50字左右 最好不要写得太难,简介就可以了哦! 联想pad无法进入电池管理 合肥市安通道路清障施救服务有限公司电话是多少?