(原标题:寰球最强Arm做事器芯片?叫板四大巨头)
若是您但愿可以常常碰头,接待标星保藏哦~
来源:内容编译自servethehome,谢谢。
是时候对许多东说念主期待已久的 Ampere AmpereOne A192-32X 进行评测了。在这篇评测中,咱们将潜入探讨性能、功耗,也许最进犯的是,使用Supermicro MegaDC ARS-211M-NR 等平台的嗅觉若何 ,以及它对行业意味着什么。
Ampere AmpereOne A192-32X 概括
了解 AmpereOne A192-32X 的布景很进犯。它是 192 核 3.2GHz(因此是 A192-32X)部件,按照 2024 年的规范来看,这似乎很时常。据称,它于 2022-2023 年头次出售,主要在 Oracle Cloud 上。最初流向云提供商的量意味着它花了十分长的时候才插足其他客户手中。在 2024 年,情况发生了变化,当今咱们有了像Supermicro MegaDC ARS-211M-NR这么的做事器。
这似乎不是什么大问题,但这等于 AmpereOne 以 192 个内核插足企业市集时所领有的多数内核与英特尔如今不才个季度领有 144 个 250W 的 E 内核以及在 2024 年第三季度领有 128 个 P 内核(256 个线程)之间的分辨。AMD 在第四季度初的处理器当今领有 192 个内核/每个插槽 384 个线程。或者让咱们这么说。在 2022-2023 年,192 个内核的 Arm CPU 是超凡脱俗的。到 2024 年,x86 团队还是基本赶上来了。
Ampere 专注于提供一种可通过容器或假造机同期为多个客户提供分区的芯片。尽管它宣称性能如斯出色,但让咱们先不甘示弱少许。Ampere 并非试图打造一款 HPC CPU。这是一款云原生芯片。
Ampere 凭借 AmpereOne 取得进一步发展的一个范围是订价。AmpereOne 的订价高于 Altra Max,但性能更高。不外,英特尔、AMD 和 NVIDIA 并不以为其芯片的 10,000 好意思元订价是上限。
AmpereOne 和 Altra Max 之间的另一个要紧分辨是功能集进行了要紧修改。这是 2022 年的原始幻灯片,A192-32X 是 400W 部件。不外,嵌套假造化等功能在 AmpereOne 中是新特点。咱们还赢得了 PCIe Gen5 和 DDR5 维持。
咱们在Hot Chips 2024 的 Ampere AmpereOne 架构上进行了更详备的先容, 但 Ampere 也变嫌了其制造芯片的样式。您看到的中心芯片具有台积电 5nm 的内核暖热存。主芯片周围是处理 PCIe 和 DDR5 连络的较小芯片。最终,借助 AmpereOne M,Ampere 将再添加两个 DDR5 芯片,并达成与 AMD 和英特尔相匹配的 12 通说念 DDR5。当前,咱们正在研究 8 通说念 DDR5 机器。
云原生遐想的其他一些影响体当今中枢暖热存方面。中心计算块是 24 个 8 核集群中的 192 个中枢。每个中枢皆有我方的 2MB L2 缓存,何况不使用 SMT。因此,一个中枢等于一个线程。对于追思将来 Spectre/Meltdown 缝隙的组织来说,一个中枢/一个线程可以驻扎这种情况发生。值得瞩方针是,英特尔和 NVIDIA 也接受了这种方法。
这款芯片与 Intel Xeon 6 Granite Rapids-AP(以致是 Sapphire Rapids/Emerald Rapids)或 AMD EPYC 9005“Turin”比较,相等不同的是,它有一个 64MB 的微型分享 L3 缓存。这比 144 核 Intel Xeon 6700E 还要小得多,与 AMD 的 L3 缓存比较更是微不及说念。一样,这款芯片的遐想方针是分区并出售给多个客户,因此从见识上讲,在该模子中领有大型分享 L3 缓存可能具有挑战性。此外,大型 L3 缓存占用了多数的芯单方面积。
不外,这种方法的一个公正是,由于只消一个计算块,因此中枢到中枢的蔓延可以比英特尔和 AMD 更好。
Supermicro MegaDC ARS-211M-NR 性能
当今每个东说念主皆想知说念的是,让咱们聊聊当你赢得 Ampere AmpereOne A192-32X 处理器时会发生什么。有 192 个中枢莫得 SMT,是以有 192 个线程。这与 Intel Xeon 6 6700E Sierra Forest访佛,因为莫得 SMT,而且这更像是 x86 术语中的 E 核而不是 P 核遐想。
这款 CPU 证据相等出色的一个方面是让扫数中枢皆以 3.2GHz 运行。这是在 192 个中枢上运行的压力测试,3.2GHz 时钟速率是在扫数 192 个中枢上运行的。
在某些做事器 CPU 架构中,可能会看到一些内核运行得更快,而其他内核运行得稍慢。AmpereOne 的遐想使扫数内核皆能以交流的速率运行。在曩昔的几代居品中尤其如斯。从 AMD EPYC Bergamo 系列开动,咱们还是看到一些竞争性 x86 架构的证据访佛。
SPEC CPU2017 效果
SPEC CPU2017 可能是做事器 RFP 中最广为东说念主知和使用的基准测试。咱们我方进行 SPEC CPU2017 测试,效果常常比 OEM 提交的官方效果低几个百分点。由于 OEM 为这些进犯的基准测试作念了多数优化责任,因此效果长期保合手在约 5% 掌握。由于当前还是有了官方数据,因此若是咱们议论的是行业基准测试,那么使用官方数据嗅觉是正确的。
咱们在这里使用官方效果,这意味着优化的编译器。Ampere 冷漠使用扫数 gcc,并走漏其将 AMD 和 Intel 的评级降至此基准的 gcc 数字。这种参谋就像辩说宗教一样。
有东说念主可能会说 GCC 是最小公分母,是以这是正确的看待这个问题的样式。另一方面,最大的芯片公司 NVIDIA 还是使用 CUDA 和优化的器用链达到了这少许。若是咱们说咱们需要在这里使用 GCC,那么咱们是否需要幸免使用 NVIDIA 的器用来稽查其 AI 性能?咱们以为,既然官方分数可以目田使用他们想要的任何编译器,那应该是咱们使用的方法。
着手,Altra Max 和 AmpereOne 之间的性能有了庞大的飞跃。内核增多了 50%,但性能委果普及了一倍。
当咱们将效果与 AMD 进行比较时,Turin Dense 委果等于怪物。AMD 的每插槽性能是其两倍,线程亦然其两倍。Ampere 可能会争论编译器,而 1 核/1 线程使其粗略每 CPU 履行 192x 1 vCPU VM。AMD 可能会反驳说,它可以每 CPU 履行 192x 2 vCPU VM。
与英特尔比较,一样使用不同的编译器,144 核的英特尔至强 6780E 相等接近。Ampere 可以宣称它可以每 CPU 履行 192x 1 vCPU VM,而英特尔只可履行 144 个。若是您是云提供商,则更多的 vCPU 意味着每个系统有更多的客户。
跟着 Sierra Forest-AP 于 2025 年第一季度推出,咱们瞻望 288 核部分将达到 1250-1410。若是 AmpereOne M 线性扩张到 256 核,则为 936。这接近 AMD EPYC Bergamo 128 核/256 线程部分。
STH nginx CDN 性能
在 nginx CDN 测试中,咱们使用 STH 网站的旧快照和探望模式,禁用 DRAM 缓存,以走漏从磁盘获取数据的性能。这需要低蔓延的 nginx 操作,但需要畸形的低蔓延 I/O 探望要领,这在做事器级别上很真谛。以下是漫衍的快速概览:
浅显讲明一下,咱们使用的建设是咱们及时建设的快照。在这里,nginx 是针对 Arm 责任负载进行了相等优化的建设之一,但在是否需要针对 Arm 优化建设方面,咱们可能还有一些成漫空间。尽管如斯,这如故适应咱们的预期,因为 AmpereOne 苟简与 Sierra Forest 具有中枢对中枢竞争力,何况在每个插槽的基础上着手于 AMD EPYC Bergamo。与 Altra Max 比较,咱们的每个中枢扩张也后来居上。瞩目:咱们最终购买了基于 咱们评测过的 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 准系统,并为此构建了一个单插槽 Altra Max 平台。
由于其他原因,这是一个有点奇怪的基准。为了让您交融,若是您每天的页面浏览量低于 100 万次或每秒 11.5 PV 仅提供相对静态的内容,那么您可能可以在单插槽 AmpereOne 192 中枢部件上处理这些内容。若是您稽查网站的漫衍,该网站可能是寰球排行前 25,000 的网站之一。对于大多数网站,您可能在几个 vCPU 上运行,而不是在扫数这个词做事器上运行。
MariaDB 订价分析
对我个东说念主来说,这是一个相等真谛的测试。这项测试的发源是,咱们有一个责任负载,它对一组来自主要数据中心 OEM 的匿名数据运行交游顾问订价分析。该应用设施灵验地寻找跨居品线、地区和渠说念的订价趋势,以左证市集趋势细目好的交游/坏交游指点,从而为及时 BOM 建设提供信息。若是这看起来相等具体,那么它与主要供应商部署的东西之间的最大分辨在于咱们使用的数据。这种应用设施还是转向东说念主工智能推理方法,但它是企业可能在云中运行的一个很好的实践天下示例。
就优化瞩目事项而言,这与 nginx 测试相等相似。灵通数据库在云实例中得到普通使用,因此底层软件的优化进度可能比咱们当前的应用设施移植更好。不外,这本色上是一个实践天下的器用,它还是通过它运行了数百亿好意思元的数据中心硬件交游(固然,使用不同的数据),使其成为一个相等实践天下的生意应用设施。
与 Cascade Lake Xeon(第二代英特尔至强可扩张处理器)比较,这是一个很大的升级。若是您要升级,那么您将看到 >5:1 插槽整合。
STH STFB KVM 假造化测试
咱们想分享的另一个责任负载来自咱们的一位 DemoEval 客户。咱们有权发布效果,但被测试的应用设施自己是闭源的。这是一个基于 KVM 假造化的责任负载,咱们的客户正在测试在方针 SLA 下完成责任时,在给定时候内可以在线运行些许台假造机。每个假造机皆是一个空隙的责任器。就其功能而言,这相等访佛于 VMware VMark,仅仅更通用地使用 KVM。
在这里,XL 和 L VM 块效果受到内存占用的影响,因此本色上,咱们正在稽查正确的三个效果。这更多地针对双插槽责任负载进行了诊治,但仍然很真谛。总体而言,效果相等好。英特尔至强 6780E 1P 莫得达到这一水平,但您可以假定它比 6766E 略高,因为它具有访佛的中枢数,仅仅由于 TDP 更高而具有更高的时钟速率。
AmpereOne 在这方面证据可以,尽管 x86 阵营领有更高的线程数,这在这方面很有匡助。此外,使用 64GB DIMM,12 通说念平台可赢得更多 RAM 和内存带宽,这很有匡助。
SSD 和 NIC 性能
对于这些新平台,进犯的少许是不仅要存眷 CPU 自己的性能,还要存眷扫数连络成立的性能。咱们试用了 Kioxia CM7 和 Solidigm D7-PS1010 SSD,它们的性能与咱们的 Sapphire Rapids 基线平台收支 1.5% 以内。这在错误范围内。
左证所使用的 SSD,咱们莫得看到性能受到像 AMD EPYC 9965 那样的庞大影响。
在咱们最近的测试中,咱们还看到基于 AMD EPYC 9965 上使用的 NIC 的十分大的影响。咱们尝试了 Broadcom 400GbE NIC。
咱们还测试了 NVIDIA CX-6 和 CX-7 搞定决策,以赢得双 100GbE 和双 200GbE 搞定决策的测试。
咱们还使用了 NVIDIA BlueField-3 DPU,它有两个双 200GbE 连络。这是必要的吗?固然不是。然则,在 192 个 Arm 中枢做事器上添加一张带有 16 个 Armv8.2+ A78 中枢的卡有点真谛,而且很像 Inception。
一样,与第四代 Intel Xeon 基准比较,这些 NIC 平台的错误范围也处于错误范围内。咱们不需要像 AMD EPYC 9965 那样在 CPU 上安设 400GbE NIC 来缓解瓶颈。
接下来咱们来说说功耗。
对于功耗
在Supermicro MegaDC ARS-211M-NR 评测中,咱们详备先容了所使用的 AmpereOne 平台的功耗 。最大的成绩是,与 Xeon 6700E 平台或 AMD EPYC 9005 平台比较,舒服功耗十分高。它不是跳动 10-20W,而是跳动 70W 以上,这在单插槽系统上相等澄莹。
在满负荷的情况下,使用 400W AmpereOne A192-32A,AMD EPYC Turin 9965 会浮滥更多电量,但多出的电量不会突出 100W。英特尔至强 6780E 仅仅一个 330W TDP 的低功耗平台。可能有两种看待这个问题的方法。着手,AMD 和英特尔还是在很猛进度上减弱了与 Ampere 的每瓦性能差距。另一方面,当作 2022-2023 年的构成部分,AmpereOne 会遥遥着手。它的最大挑战是它在 2024 年在云提供商以外全面上市,因此它领有不同的竞争敌手。若是您想了解联系功耗的更多详备信息,请稽查系统驳斥。
主要阅历阅历:竞争
在这少许上,我以为咱们应该议论咱们的要道阅历阅历的竞争。
一、主要阅历阅历:英特尔竞争
着手,Intel Xeon 6700E 看起来相等可以。英特尔在性能方面具有竞争力。英特尔的 E 中枢至少与 AmpereOne 中枢不相荆棘。咱们可能会给 AmpereOne 一个上风,但与此同期,这亦然眼神短浅的。当前,Ampere 领有 192 个中枢,而Intel Xeon 6700E仅限于 144 个中枢,这是 Ampere 的一大到手。请记取,这些芯片是对于在每个插槽中遗弃尽可能多的客户 <8 vCPU 实例。Ampere 领有更多中枢,因此它在这方面到手。不外,英特尔还是在很猛进度上减弱了差距。
另一方面,英特尔至强 6766E 相等蛊惑东说念主。这款 250W TDP 部件在双插槽建设中的 SPEC CPU2017 int_rate 得分约为 1320,因此每个 CPU 约为 660,而 AmpereOne 得分为 702,但功耗为 400W。一样,编译器不同。不外,对于许多东说念主来说,为 150W 插槽 TDP 焚烧 6% 的性能是值得的。英特尔在减弱功率/性能差距方面作念得很好。
也许最大的问题亦然资本。192 核的 AmpereOne 价钱不到英特尔至强 6780E 标价的一半。英特尔需要从头制定其订价和扣头战略,因为当今看起来很奇怪。
咱们知说念 AmpereOne M 配备 256 个内核和 12 通说念 DDR5。咱们还知说念英特尔将推出 288 个内核和 12 通说念 DDR5 的 Sierra Forest-AP。英特尔应该会在这里相等有竞争力,但资本更高。也许最奇怪的是,Clearwater Forest是咱们渴望英特尔在其云原生处理器系列中赢得更多存眷的一代。
二、主要阅历阅历:AMD 竞争
AMD 的大芯片标价较高,但AMD EPYC 9005“Turin”系列相等出色。也许这是有原因的。咱们的嗅觉是,AmpereOne 本色上应该是 AMD EPYC 9754“Bergamo”一代的竞争敌手,而不是 Turin Dense 的竞争敌手。若是咱们牢记 Ampere 在 2023 年向 Oracle Cloud 等客户托付了 AmpereOne,那么这更专诚想。8 通说念 AmpereOne 的遐想方针并非与 192 核/384 线程 Turin Dense 遐想竞争。
与英特尔一样,AMD 的 Turin 标价远高于 AmpereOne。不外,当前很难断言 AMD 或英特尔在这个范围莫得竞争力。这可能是因为咱们需要看到 AmpereOne M。
三、主要阅历阅历:NVIDIA 竞争
NVIDIA 是这里的通配符。咱们作念了一篇名为《2022 年最进犯的做事器:技嘉 Ampere Altra Max 和 NVIDIA A100》的著述,它也领有我方的 GTC 会议。当今,若是您想将 NVIDIA GPU 连络到 Arm CPU,它很可能是 NVIDIA Arm CPU。
有东说念主可能会说这对 Ampere 不利。但这可能是件功德。NVIDIA 领有当前市集上热销的 AI 居品,它将愚弄这一上风鼓动东说念主们使用 Arm。Grace 架构是 P 核 x86 CPU 的一个可以的替代品,尤其是当这些 CPU 的中枢数较低时。对于高中枢数云原生,NVIDIA 并莫得涉足该范围,即使它领有 144 核 Grace 超等芯片。
咱们莫得看到 AmpereOne 在高端 HGX B100/HGX B200 磨练或推理系统中的市集。与此同期,跟着 NVIDIA 向其客户和生态系统扩充 Arm,当前 Arm 的一些最好优化应用设施是 AmpereOne 对准的 Web 做事器等。
事实是,若是您想要土产货 Arm,您可以购买 NVIDIA 或 Ampere,何况两个供应商的方针皆是每核性能频谱的两头。
四、要道阅历阅历:云计算竞争
云计算是 Ampere 的战场。Ampere 靠近的要道问题是大型超大范围企业正在打造我方的芯片。像 微软这么的公司可以使用 Arm Neoverse CSS来构建我方的遐想。AWS 正在通过 Graviton 进军高端市集。
四年前,Ampere 凭借 Altra / Altra Max 在超大范围计算范围取得了到手。它可能需要转型的所在是提供一条用于遣返的里面部署移动旅途。具体来说,若是您有一个在 Microsoft Azure、AWS、GCP 以致 Oracle 云上运行的基于 Arm 的实例类型,何况您但愿将责任负载遣返到里面部署或主机托管设施中,那么您需要一个 Arm 做事器。NVIDIA 专注于销售用于 AI 的 GPU,并为此附带了 CPU。将云责任负载遣返到里面部署选项有点奇怪。大多数供应商皆有用于 Grace 的 NVIDIA MGX 平台,但这是一种性能更高的遐想。若是您想遣返诸如 Web 做事器之类的东西,那么信得过的礼聘是 Ampere。技嘉和 Supermicro 等公司领有 Ampere Altra 和 AmpereOne 平台。HPE 在 HPE ProLiant RL300 Gen11中配备了 Altra (Max) 。若是您是戴尔商店或梦想(好意思国)商店,那么很难赢得非 NVIDIA Arm 做事器。
AmpereOne 本色上还是占领了这个市集。赢得几颗 CPU 到几千颗 CPU 的交游要比赢得以 25,000 颗 CPU 为增量的交游费事得多。当今的问题是 Ampere 是否会开动专注于为东说念主们提供通往云表 Arm 实例的出口。
临了的话
AmpereOne 是 2024 年第四季度你能买到的最快的 CPU 吗?不是。它也莫得试图成为最快的 CPU。违抗,它试图成为一种基于 Arm 的遐想,提供 192 个内核,功耗略高于 2W/内核。最大的挑战之一是咱们老是存眷扫数这个词芯片的原始性能。本色上,这些芯片被部署为云实例,主要由 8 个或更少的 vCPU 构成。这些实例很可能以较低的 CPU 愚弄率运行,而更大更快的内核只会是一种糜掷。
为了赢得 1P Ampere Altra Max 效果,咱们购买了基于 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 1U 做事器。对于咱们的存储花式来说,它是较老且较低廉的一代。总体而言,当今使用 Arm CPU 很容易,但并非意味着零切换资本。是有资本的,仅仅比以前少了许多。NVIDIA 和云提供商扩充 Arm CPU 只会跟着时候的推移匡助镌汰切换资本。
一言以蔽之,研究到这是咱们在 2024 年评测的 2022-2023 年 CPU,AmpereOne 证据可以。不外,也许更大的成绩是,若是你不在粗略制造芯片但想要云原生 Arm 遐想的超大范围处理器公司责任,AmpereOne 是惟一的礼聘。恐怕,成为其中的一员是一件很棒的事情。
https://www.servethehome.com/ampere-ampereone-a192-32x-review-a-192-arm-core-supermicro-nvidia-broadcom-kioxia-server-cpu/3/
半导体佳构公众号推选
专注半导体范围更多原创内容
存眷寰球半导体产业动向与趋势
*免责声明:本文由作家原创。著述内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或维持,若是有任何异议,接待联系半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3939内容,接待存眷。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的内容就点“在看”分享给小伙伴哦