(原标题:“拖后腿”的芯片技艺)
淌若您但愿不错频频碰面,宽饶标星保藏哦~
本周二,Nvidia的股价再次超越苹果,成为世界最有价值的公司,继本年6月创下雷同记载后,再度迎来色泽时刻。在昔时两年中,凭借GPU的强健算力,Nvidia在AI期间可谓快乐无尽,芯片性能不息攀升,取得了重大的商场到手。然则,不得不指出的是,尽管GPU技艺连忙发展,仍有一些短板技艺正在成为英伟达发展的隐性隐蔽,影响着其进一步的蹧蹋。
高唱大进的GPU
近一两年来,咱们不错看到GPU的速率迭代相等快,背后很大的要素是生成式AI(大模子)的爆发式增长。IDC预测到2027年,世界生成式AI商场规模将攀升至1454亿好意思元,中国商场的投资也将达到129亿好意思元,IDC指出,这一发展趋势的能源源自技艺迭代的加速、应用领域的拓宽,以及企业对 AI 立异驱动的不懈进入。
算力是生成式AI发展的物理基础,GPU是加速计较的主要器具。要竣事大模子的蹧蹋,就需要大幅提高GPU的性能。GPU目下正进入一种“自我加速”的发展模式。英伟达和AMD等厂商面对着重大的商场压力,它们必须不息在硬件联想上反覆无常,力务竣事每年一个小迭代、每两年一个大迭代,才能舒适这些需求。即使Hopper H100 GPU 平台是“历史上最到手的数据中心处理器”,但黄仁勋在本年的Computex主题演讲中说到,Nvidia也必须陆续勤劳。
英伟达的GPU架构从Fermi到 Hopper再到Blackwell,每次架构升级皆带来性能和能效上的权贵提高。从“Pascal” P100 GPU一代到“Blackwell” B100 GPU 一代,八年间GPU 的性能提高了1,000多倍。诚然昔时八年性能提高了1000多倍,但是GPU的价钱仅上升了7.5倍。据了解,Nvidia的新款基于Blackwell的GB200 GPU系统大略以比上一代H100系统的推理速率快30倍,但与H100 初度发布时的价钱大致调换,展望每台GB200 GPU 的售价在30,000至40,000好意思元之间。
从Hopper GPU运转,英伟达就一直属于抢手货,而新一代的Blackwell亦是如斯。10月,英伟达CEO黄仁勋暗意,最新的Blackwell GPU将来12个月的订单均还是售罄,AWS、Google、Meta、Microsoft、Oracle 和CoreWeave等主要科技巨头是大买手。
由于对数据中心GPU的需求,Nvidia的市值自2023岁首以来增长了近十倍。2023岁首,英伟达的市值为3600亿好意思元。不到两年后,其市值已卓越3.4万亿好意思元。
Nvidia市值超越苹果成为世界最有价值的公司
GPU规模的发展速率之快是前所未有的,就拿AMD来说,在 AMD 2024 年第三季度财报电话会议上,AMD CEO Lisa Su指出,其GPU销量已接近CPU销量,这点与AMD涉足AI商场大关系系。AMD的AI GPU业务才刚运转一年,营收就还是快达到CPU业务规模。在财报会上,Lisa Su还暗意:“仅在数据中心,咱们展望AI加速器商场规模将以每年60%以上的速率增长,到2028年将达到5000亿好意思元。这大致终点于2023年通盘这个词半导体行业的年销售额。”AMD将2024年GPU销售额预测从45亿好意思元上调至50亿好意思元以上。
然则,GPU这么的快速发展也带来了新问题。跟着GPU性能的不息提高,背后支握它们的基础智商——尤其是互联技艺和存储技艺——却显得相对滞后。
跟不上的互联技艺
如今,大型话语模子(LLMs)如ChatGPT、Chinchilla 和 PALM,以及保举系统如 DLRM 和 DHEN,皆在千千万万的 GPU 集群上进行进修。进修历程包括频繁的计较和通讯阶段,互联技艺就显得尤为要津。
传统的互联技艺如PCIe(外围组件互联)接口的带宽已难以撑握日益增大的数据传输需求,也早还是跟不上GPU的速率,PCIe圭臬诚然冉冉演进,但它的传输带宽与GPU处理才调之间的差距越来越大。荒谬是在多卡并行计较的场景中,PCIe显得疲于逃命,截止了GPU的最大性能开释。尽管目下许多大公司尝试接受圭臬PCIe交换机,并通过基于PCIe的结构推广到更多加速器,但这仅仅权宜之策。
为了应付这一瓶颈,英伟达开发了自家的高速互联技艺——NVLink和Infiniband。NVLink 技艺可用于 GPU 之间的高速点对点互连,提供高带宽和低延长的数据传输,并通过 Peer to Peer 技艺完成 GPU 显存之间的径直数据交换,进一步裁汰数据传输的复杂性。这关于散布式环境下运行的复杂 AI 模子尤为首要。更快的纵向互联有助于工作器集群内每个 GPU 性能的充分开释,从而提高全体计较性能。
着手:Nvidia
至于Infiniband技艺,是一种累积相接技艺。英伟达于2019年收购了Mellanox Technologies,Mellanox是世界当先的InfiniBand技艺提供商之一。收购后,英伟达陆续鼓吹InfiniBand技艺的立异,并在其加速计较平台中深度集成了InfiniBand累积。诚然以太网(Ethernet)在好多应用中是主流的累积相接技艺,但在高性能计较(HPC)和AI进修等场景中,InfiniBand相较于以太网,具有权贵上风:它提供更高的带宽、更低的延长,且原生支握而已径直内存访谒(RDMA),使得数据传输愈加高效。
Nvidia的Quantum-X800 InfiniBand(着手:Nvidia)
而AMD则推出了我方的Infinity Fabric互联技艺,专为数据中心优化,旨在提高数据传输速率和裁汰延长。不外Infinity Fabric当然亦然比不外NvLink的,否则AMD也不会发起UALink定约。
NVLink和InfiniBand技艺诚然具有明显上风,但它们皆是英伟达的寥落技艺。跟着行业对互联技艺需求的不息增长,一方面但愿幸免英伟达在技艺上的左右,另一方面也面对着互联技艺瓶颈的挑战。因此,许多企业运转对标英伟达的互联技艺,尝试开发替代决策。
客岁7月19日,超等以太网定约 (UEC)缔造,来对标InfiniBand。独创成员包括AMD、Arista、Broadcom、想科、Eviden(Atos 旗下企业)、HPE、英特尔、Meta 和微软。目下超等以太网定约还是招引了67家公司的加入。其中不乏有许多初创公司,定约的缔造将使这些初创公司从该定约的举措中受益良多,UEC将成为初创公司在优化 TCO 的同期独霸复杂的AI和HPC累积格式的要津。
UEC部分会员一览(着手:UEC官网)
本年,行业再度将锚头瞄向于NVLink。本年10月,由AMD主导,九大行业巨头——包括AMD、英特尔、Meta、惠普企业、亚马逊AWS、Astera Labs、想科、谷歌和微软——认真聚会缔造了UALink(长入加速器互联)。UALink的策动是成为AI加速器推广相接的行业绽开圭臬。其主要上风在于,UALink为复制NVLink和NVSwitch功能并与其他公司分享开发后果提供了一条阶梯,从而让通盘这个词行业的其他参与者皆有契机与NVIDIA保握行径一致。
UALink 1.0模范将于本年向会员绽开。该圭臬将为AI pod内多达1,024个加速器竣事高达每通谈200Gbps的相接。假定 Nvidia HGX 立场的工作器里面有 8 个 AI 加速器,UALink 不错在一个pod中相接多达 128 台这么的机器。据tomshardware的报谈,不外,UALink 最有可能平庸以较小的规模使用,梗概8个工作器的pod通过UALink互相同讯,进一步的升级由超等以太网处理。定约成员将在本年取得该模范的访谒权限,并于 2025 年第一季度运转进行全面审查。
着手:UALink新闻简报
岂论是NVLink、Fabric照旧UALink,这一系列举措响应出,现存的互联技艺跟不上加速器发展速率的精深问题,行业蹙迫需要新的处分决策来支握更强盛的算力需求。
存储更艰辛
与互联技艺的滞后比较,存储技艺的当先似乎显得愈加艰辛。在AI、机器学习和大数据的推动下,数据量呈现出指数级的增长,存储技艺必须紧随后来,才能确保数据处理的服从和速率。关于现时的内存行业来说,高带宽内存(HBM)还是成为焦点,尤其是在大模子进修所需的GPU芯片中,HBM真是还是成为标配。
GPU依赖于高带宽内存(HBM)来舒适高速数据交换的需求。与CPU比较,GPU需要愈加频繁的内存访谒,且数据的访谒模式具有很高的并行性。这条目存储系统必须大略在毫秒级的延长内提供极高的数据带宽。
2013年,SK海力士推出了首款HBM芯片,直到大模子的崛起,HBM才真确迎来了应用的黄金时机。比年来,SK海力士加速鼓吹HBM技艺的更新迭代。本年9月,SK海力士到手批量坐褥了世界首款12层HBM3E居品,并打算于2025岁首推出首批16层HBM3E芯片样品。本来展望在2026年量产的HBM4,SK海力士已将时辰表提前,展望将在2025年下半年寄托12层HBM4芯片。
尽管如斯,黄仁勋仍在敦促SK海力士加速HBM4的供应,初步条目提前6个月寄托。诚然HBM的需求火爆,存储厂商依然面对着坐褥才调、技艺瓶颈和本钱等多重挑战。
存储技艺的滞后给高性能计较带来了多重挑战:
计较才调奢靡:GPU的强健计较才调无法得到充分运用,存储瓶颈导致无数的GPU计较资源处于快乐景色,无法高效地施行任务。这种不匹配导致了系统性能的低效进展,增多了计较时辰和能源滥用。
AI进修服从下跌:在深度学习进修历程中,无数的数据需要频繁地在GPU与存储之间交换。存储的低速和高延长径直导致AI进修历程中的数据加载时辰过长,从而延长了模子进修的周期。这关于需要快速迭代的AI面貌来说,尤其是生意应用中,可能会形成较大的本钱压力。
大规模数据处理的隐蔽:跟着大数据的兴起,许多AI应用需要处理海量数据。现时存储技艺未能有用支握大规模数据的快速处理和存储,荒谬是在多节点散布式计较的场景中,存储瓶颈时常成为数据流动的最大隐蔽。
为了处分存储跟不上GPU发展的瓶颈,业界还是提倡了一些潜在的处分决策:举例存算一体以及CXL这么的智能存储架构。
跟着处理在内存(PIM)技艺的兴起,计较和存储有可能进行更密致的集成。PIM技艺允许计较任务径直在存储诱导上进行处理,幸免了数据在计较和存储之间的传输瓶颈。此类技艺有望大幅提高存储系统的性能,并有用支握GPU等计较芯片的高速数据访谒需求。
智能存储架构:通过接受更智能的存储架构,如CXL(Compute Express Link)和NVMe条约,不错竣事更高效的存储推广和更低延长的数据访谒。CXL提供了计较和存储之间的高速互联,使得GPU大略更快速地访谒存储数据,处分传统存储架构中存在的带宽瓶颈问题。
存储技艺滞后于计较芯片发展的气候,明显还是成为当代计较系统中的瓶颈。尽管存储技艺还是取得了一些进展,但与GPU等计较芯片的快速发展比较,仍存在较大的差距。
回来
在目下快速演变的技艺生态系统中,多技艺协同升级已成为推动新兴技艺发展的中枢能源。要竣事算力的握续增长,GPU、互联、存储等技艺必须合作发展。诚然GPU技艺已取得了权贵当先,但莫得更高效的互联技艺和更快的存储技艺撑握,算力的后劲将无法澈底开释。
关于英伟达等科技巨头而言,奈何陆续推动GPU与其他要津技艺的协同进化,处分存储、互联的瓶颈,将是将来几年中的主要挑战。
半导体杰作公众号保举
专注半导体领域更多原创本体
眷注世界半导体产业动向与趋势
*免责声明:本文由作家原创。著作本体系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支握,淌若有任何异议,宽饶沟通半导体行业不雅察。
今天是《半导体行业不雅察》为您分享的第3941本体,宽饶眷注。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
可爱咱们的本体就点“在看”分享给小伙伴哦