(原标题:HBM,最新预测!)
如若您但愿不错平素碰头,迎接标星储藏哦~
咱们不错通过多种花样来扩张算计引擎的内存容量和内存带宽,从而更好地驱动 AI 和 HPC 责任负载,而面前咱们能够作念到的还远远不够。然而,咱们可能作念的任何事情(面前有许多兴致的光学 I/O 选项可供弃取)都必须具有可制造性和资本效益,能力选拔新的内存智商。
不然,它就不会被采用,也不成能被采用。
这即是咱们当今碰到的 HBM 瓶颈的原因。一小部分终点腾贵的 HPC 和 AI 责任负载受限于内存带宽,它们将大批并行 HBM 内存堆栈摒弃在终点连结算计引擎的位置。HBM 无法同期提高内存容量和内存带宽——只可领有其中一种。
HBM很好,很缺
HBM 内存比使用成例 DRAM 好得多,关于带宽是要道的算计引擎来说,HBM 内存也比 GDDR 好,但即使好意思光科技与 SK 海力士和三星一皆加入 HBM 阵营,寰宇也无法坐褥充足的这种家具来满足需求。这反过来又导致高端算计引擎(以及 HBM 所需的中介层封装)贫窭,这反过来又使商场向不天然的见解诬蔑,导致原始算计和内存容量与带宽之间效果低下和回击衡。
之前也曾在许多著作中留意商酌过这个问题,咱们不再叠加这些冗长的内容,只念念说,按照咱们的念念法,当今和不久的畴昔推出的 GPU 和定制 AI 处理器不错缓慢领有 2 倍、3 倍致使 4 倍的 HBM 内存容量和带宽,以更好地均衡其雄伟的算计量。当在合并 GPU 上将内存翻倍时,AI 责任负载的性能险些提高了 2 倍,内存即是问题所在,也许你不需要更快的 GPU,而是需要更多的内存来满足它的需求。
恰是磋商到这极少,咱们查阅了 SK 海力士最近发布的两份公告,SK 海力士是寰球 HBM 出货量的率先者,亦然 Nvidia 和 AMD 数据中心算计引擎的主要供应商。本周,SK 海力士首席实施官 Kwak Noh-Jung 在韩国首尔举行的 SK AI 峰会上展示了行将推出的 HBM3E 内存的一种,该内存在往时一年中已在各式家具中批量坐褥。
但这款新推出的 HBM3E 内存却有一个令东说念主昂扬的场地——内存堆栈有 16 个芯片高。这意味着每个存储体的 DRAM 芯片堆栈高度是许多诞生中使用确现时 HBM3E 堆栈的两倍,24 Gbit 内存芯片可提供每个堆栈 48 GB 的容量。
与使用 16 Gbit 内存芯片的八高 HBM3 和 HBM3E 堆栈(最高容量为每堆栈 24 GB)和使用 24 Gbit 内存芯片的十二高堆栈(最高容量为 36 GB)比拟,这在容量上有了很大的擢升。
在您昂扬之前,16 位高堆栈正在使用 HBM3E 内存进行送样,但 Kwak 暗示,16 位高内存将“从 HBM 4 代运行绽开”,何况正在创建更高的 HBM3E 堆栈“以确保技巧褂讪性”,并将于明岁首向客户提供样品。
不错信托的是,Nvidia、AMD 和其他加快器制造商都但愿尽快将这种技巧添加到他们的道路图中。咱们静瞻念其变。
SK 海力士暗示,它正在使用雷同先进的大领域回流成型底部填充 (MR-MUF) 技巧,该技巧不错熔解 DRAM 芯片之间的凸块,并用粘性物资填充它们之间的空间,以更好地为芯片堆栈散热的花样将它们联贯在一皆。
自 2019 年随 HBM2E 推出以来,MR-MUF 一直是 SK 海力士 HBM 设想的象征。2013 年的 HBM1 内存和 2016 年的 HBM2 内存使用了一种称为非导电薄膜热压缩或 TC-NCF 的技巧,三星那时也使用过这种技巧,何况仍然是其首选的堆栈胶水。三星以为,TC-NCF 搀和键合关于 16 高堆栈是必要的。
HBM 道路图回来和预测
磋商到整个这些,以及几周前 SK 海力士在 OCP 峰会上的演讲,咱们以为当今是时刻望望 HBM 内存的发展道路图以及 SK 海力士过甚竞争敌手在试图将这项技巧推向极限时面对的挑战了,这么算计引擎制造商就不错幸免使用光学 I/O 将 HBM联贯到电机,就像咱们十年来一直在作念的那样。
面前有一系列 SK Hynix HBM 道路图流传,每张道路图都有不同的内容。以下是其中一张:
这是另一个:
让咱们回来一下。HBM1 于 2014 年推出,并于 2015 年小批量坐褥,好像产量很低,因为它是一种用于擢升算计引擎主内存带宽的终点新的技巧。SK Hynix 最初的 HBM1 内存基于 2 Gb 内存芯片,堆叠了四层,容量为 1 GB 内存,带宽为 128 GB/秒,使用 1 Gb/秒 I/O 通说念。
HBM2 于 2016 年推出,并于 2018 年干涉交易化,此时诞生的线速擢升至 2.4 Gb/秒,比 HBM1 提高了 2.4 倍,每个堆栈可提供 307 GB/秒的带宽。HBM2 堆栈最初有四个 DRAM 芯片高,但自后加多到八个芯片堆栈。HBM2 中使用的 DRAM 芯片容量为 8 Gb,因此四高堆栈最高可达 4 GB,八高堆栈则是其两倍,为 8 GB。
这运行变快兴致起来,而当 2020 年 HBM2E 发布时,情况变得愈加兴致。DRAM 芯片密度翻倍至 16 Gbit,主内存容量翻倍至 4 层塔式机箱的 8 GB 和 8 层塔式机箱的 16 GB。DRAM 的线速提高了 50%,达到 3.6 Gb/秒,每堆栈带宽高达 460 GB/秒。有了四个堆栈,当今一台诞生的总内存带宽不错达到 1.8 TB/秒,这比传统 CPU 的四或六个 DDR4 通说念所能提供的带宽要高得多。
跟着 2022 年 HBM3E 的发布,以及 Nvidia 推出“Hopper” H100 GPU 加快器和交易 GenAI 上涨的运行,一切都变得任意起来。联贯 DRAM 和 CPU 或 GPU 的潜入速率提高了 1.8 倍,达到 6.4 Gb/秒,每个堆栈可提供 819 GB/秒的带宽,堆栈以八高为基础,十二高选项使用 16 Gbit DRAM。八高堆栈为 16 GB,十二高堆栈为 24 GB。令东说念主深感不酣畅的是,HBM3 莫得竣事十六高堆栈。但每次加多新的高度都不单是是难度的加多。
因此,咱们今天推出了 HBM3E:
HBM3E 于 2023 年 5 月由 SK Hynix 推出,DRAM 上的引脚速率擢升至 8 Gb/秒,比 HBM3 内存提高了 25%,使其每堆栈高达 1 TB/秒。HBM3E 的 DRAM 芯片为 24 Gbit,八高堆栈容量为 24 GB,十二高堆栈容量为 36 GB。由于其更快的 9.2 Gb/秒信号传输速率,好意思光科技的 HBM3E 被选为 Hopper H200 GPU 加快器(每堆栈 1.2 TB/秒),而速率较慢的 SK Hynix 芯片则被选为 Grace-Hopper 超等芯片中使用的 H100 和 Nvidia 的 H100-NVL2 推理引擎的第二次更新。
SK Hynix DRAM 技巧接洽发扬东说念主 Younsoo Kim 先容了公司的 HBM 道路图,并商酌了转向 HBM4 内存所需的具体挑战,HBM4 内存仍是一个不断发展的范例,磋议将于 2026 年在 Nvidia 的下一代“Rubin”R100 和 R200 GPU 中初度亮相,选拔八高堆栈,并于 2027 年在 R300 中初度亮相,选拔十二高堆栈。
“Blackwell” B100 和 B200 GPU 磋议将使用 8 层 HBM3E 高堆栈,最大容量为 192 GB,而来岁行将推出的后续家具“Blackwell Ultra” (如若传言属实,可能会被称为 B300) 将使用 12 层 HBM3E 高堆栈,最大容量为 288 GB。(据咱们所知,Nvidia 一直在尝试家具称呼。)
咱们一直在揣摸 HBM4 会选拔 16 个高堆栈,而令东说念主惊喜的是,SK Hynix 试验上正在为 HBM3E 构建如斯高的 DRAM 堆栈以供测试。独一良率OK,AI 算计引擎信托不错提前诳骗内存容量和带宽擢升。
理念念好意思好,现实暴燥
正如 Kim 在 OCP 演讲中所诠释的那样,在竣事这一目的之前,咱们还有好多问题需要责罚。一方面,算计引擎制造商正在敦促整个三家 HBM 内存制造商将带宽提高到高于他们最初本旨的规格,同期条目裁减功耗:
咱们也念念要一辆小红马车、一艘风帆、一只小狗和一匹小马手脚圣诞礼物,然而你把某样东西列在清单上并不料味着你就会得到它。
跟着算计引擎制造商将诞生外壳掀开,让其升温速率快于性能擢升速率,以取得更高的性能,更低功耗的需求变得愈加困难。这即是咱们如何将 2013 年末 Nvidia 的“Kepler”K40 GPU 加快器的功耗从 240 瓦提高到全口径 Blackwell B200 加快器的预期 1,200 瓦。B100 和 B200 由两个 Blackwell 芯片构成,每个芯片有四个 HBM3E 堆栈,总计八个堆栈,每个堆栈有八个内存芯片高。192 GB 的内存可提供 8 TB/秒的总带宽。咱们还牢记,通盘领罕有千个节点的超等算计机集群领有惊东说念主的 8 TB/秒的总内存带宽。
趁便说一句,咱们以为,如若竣事的话,使用 B300 中的 Micron HBM3E 内存不错将带宽提高到 9.6 TB/秒。
缺憾的是,由于内存堆栈也增长到 16 层高,HBM4 内存密度在 2026 年不会加多。也许内存制造商会给咱们带来惊喜,推出容量更大的 32 Gbit 的 HBM4E 内存,而不是坚捏使用 Kim 演示文稿中的这张图表所示的 24 Gbit 芯片:
HBM 内存中使用的薄晶圆的处宽待影响良率,将 DRAM 粘合成堆栈的 MR-MUF 工艺亦然如斯。(稍后会留意先容。)
散热问题亦然一大挑战。内存对热量终点敏锐,尤其是当你将一大堆内存堆得像摩天大楼一样,驾驭是一个又大又胖又热的 GPU 算计引擎时,该引擎必须与内存保捏不到 2 毫米的距离,能力保证信号传输正常。
因此,这些即是鞭策算计引擎 HBM 内存所面对的挑战。SK Hynix 能作念些什么来粗糙这一切?作念咱们一直在作念的事情:让东西更宽,并更好地将它们勾通在一皆。
HBM3 E 具有 1,024 位宽的通说念,而 HBM4 将使其加倍至 2,048 位。看起来 24 Gbit 和 32 Gbit DRAM 芯片都将扶助 HBM4(可能后者用于 HBM4E,但咱们不信托)。带有 32 Gbit 芯片的 16 高堆栈将产生每堆栈 64 GB 的内存,关于 Blackwell 封装上的每个 Nvidia 芯片来说将是 256 GB,或每个插槽 512 GB。如若 Rubin 保捏两个芯片何况只是架构增强,那就很酷了。但 Rubin 可能是三个致使四个 GPU 互连,HBM 沿着侧面运行。
念念象一下,一个 Nvidia R300 套件包含四个 GPU,以及十六个堆栈,每个堆栈包含十六个高 32 Gbit 内存,每个算计引擎总计 1 TB。将一些 RISC-V 中枢放在上头以运行 Linux,添加 NVLink 端口和一个以 1.6 Tb/秒的速率运行的 UEC 以太网端口,然后将其称为奇迹器,然后就大功奏凯了。...
除了更宽的总线以外,Kim 还无情将内存寻址逻辑集成到 HBM 堆栈的基础芯片中,而不是集成到 HBM 为止器中介层中的单独芯片中,这亦然一种可能性,从而裁减在算计和内存之间的链路上进行内存为止所需的功率。
这种智商还不错安定于完成的 AI 算计引擎对 HBM 堆栈进行好意思满测试。您不错获取已知邃密的堆叠芯片,并在信托之后(而不是 之前)将其焊合到算计引擎插槽上。
对HBM 4的预测
一言以蔽之,HBM 4 磋议将提供跳跃 1.4 倍的带宽、1.3 倍的每个内存芯片的容量、1.3 倍的更高堆栈容量(16 对 12,未鄙人图中显露,因为它可能会被保存起来用于 HBM4E,除非 Nvidia 和 AMD 不错劝服 SK Hynix 废弃这笔交游,何况产量充足好,不会因使用启程点进的更密集、更快的内存而升天一大笔钱),何况功耗仅为 HBM3/HBM3E 的 70%。
天然这一切都很好,但对咱们来说,可想而知的是,咱们当今需要承诺在 2026 年和 2027 年竣事的内存。由于内存算计回击衡,客户在诞生上破钞了一大笔钱,但由于 HBM 内存的带宽和容量瓶颈,该诞生无法接近其峰值性能。咱们要么尽早需要 HBM4E 内存,要么像咱们本年 3 月在先容 Eliyan 的同步双向 NuLink PHY 时所写的那样,咱们需要一种智商将更多的 HBM3E 内存联贯到现时诞生上。
更好的是,让咱们将堆栈数目加多一倍,并为 Nvidia Blackwell 和 AMD Antares GPU 获取 HBM4E。
请提神,咱们并莫得条目 24 个高堆栈......那样就太计划了。
https://www.nextplatform.com/2024/11/06/we-cant-get-enough-hbm-or-stack-it-up-high-enough/
半导体杰作公众号推选
专注半导体领域更多原创内容
发扬寰球半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或扶助,如若有任何异议,迎接关系半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3939内容,迎接发扬。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦
下一篇:2400亿市值大牛股,遭热切鼓动减抓! 13个来昔日,卖出逾14亿元!