Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?

这颗采用2.5D封装的芯片十分符合其“Ultra”的名头:通过硅中介层将两个M1 Max裸片集成在一起,带来了惊人的2.5TB/秒的带宽 。但戏肉却在于,M1 Ultra首次实现了两颗GPU裸片的集成 。这是过去的几年来,AMD、英伟达、英特尔都宣称要做,却至今未能做到的成就 。
访问:
苹果在线商店(中国)
凭借这一突破,苹果终于如愿以偿地在GPU领域对英伟达构成了挑战 。据苹果所说,M1 Ultra的GPU性能超过了英伟达的GeForce RTX 3090,后者是目前市面上速度最快的GPU 。
踏入自研芯片领域不过几年的苹果,究竟是如何做到业内首个GPU裸片集成的?而这一技术的实现,又将为巨头争霸的GPU市场,带来什么样的变局?
Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?
文章图片

图源:苹果
AMD、英伟达纷纷折戟 GPU裸片集成难在哪?
自MCM(Multi Chip Module,多芯片模组)技术诞生以来,像搭建乐高一样,在单一芯片中实现不同技术节点、不同功能的裸片的集成堆叠,成为了摩尔定律之外,半导体技术发展的另一路径,其本质在于将多个裸芯片和其它元器件组装在同一块多层互连基板上 。
随着台积电、三星、英特尔的2.5D/3D封装逐渐成熟、商业化,在高端处理器领域,单颗芯片中CPU与Memory、GPU与memory的裸片集成,已不再是新鲜事 。然而,两颗GPU裸片的集成,在苹果M1 Ultra发布之前,只存在于英伟达、AMD、英特尔的PPT中 。
2017年,英伟达发表论文详细解释了一种名为可组合封装GPU(Composable On-Package Architecture GPU,COPA GPU)的架构,核心在于将多个GPU模块和内存系统模块集成 。同年,AMD对外展示了由四个GPU裸片集成的MCM设计,宣称其性能将比当时最大的单片GPU的性能高45.5% 。
Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?
文章图片

COPA GPU;来源:英伟达
然而,直到后来者英特尔在今年年初提出了一种GPU裸片集成解决方案,英伟达和AMD的多裸片集成GPU仍未问世 。当然,AMD、英伟达的Instinct MI200系列和Hopper系列据称均有望在今年年底前姗姗来迟,但显然,拖延症让他们在“业内首个”上输给了苹果 。
这种“拖延症”背后的无奈,是市场和技术两个方面的 。厦门云天董事长于大全教授对笔者表示,过去对处理器的要求不那么高,一颗GPU裸片就够了,两颗集成的成本过高 。这也与此前一些业内观点一致 。有评论甚至认为,对GPU需求最大的游戏领域,这样的设计并无价值 。
2020年初,时任AMD Radeon 技术事业部工程研发高级副总裁的David Wang在接受外媒采访时就表示,多裸片集成的GPU几乎不可能出现在2021年发布的Navi系列产品中,“我们正在研究MCM架构,”他说,“但我们尚未得出结论,这是一种可以应用于传统游戏GPU的架构 。”
市场未成气候外,技术难点则是GPU裸片集成的最大痛点 。据于大全介绍,与CPU+Memory或GPU+Memory的裸片集成相比,GPU+GPU的裸片集成最大的难点在于线路更细更密,就需要更多的接口(I/O),为此,就需要将用于引出裸片信号的凸点间距缩小到50/40um规格以下 。
Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?
文章图片

红框标注为凸点;图源:英特尔
后来者苹果弯道超车 台积电无凸点技术帮了大忙?
从目前业内最前沿技术来看,凸点间距缩小到20um以下已成为2.5D/3D封装的一大门槛,英特尔、台积电均已将此作为先进封装的研发重点,例如英特尔的Foveros就将凸点间距缩小到10um,而台积电的想法更加跳跃,提出了“无凸点”互连方法SoIC,而这或许正是帮助苹果弯道超车的利器 。
Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?
文章图片

从C4凸点到无凸点;图源:台积电
根据台积电此前介绍,SoIC是对前道芯片堆叠技术的统称,主要特征是不再使用后道集成所用的凸点技术,转而直接将裸片堆叠到一起 。这种方法除了没有“凸点间距”这一紧箍咒外,还能大大降低热阻,不过缺点是必须在芯片最开始设计时就要一起被确定,技术要求自然更高 。
据于大全介绍,苹果很早就开始与台积电共同研究无凸点连接方法,因此其也推测,正是这种技术,帮助苹果M1 Ultra实现了GPU裸片集成 。“(裸片与裸片间互联)最终的解决方案就是无凸点,就是上下裸片之间铜对铜、介质层对介质层的这种键合 。”于大全说 。
这种推论是有理由成立的 。虽然苹果在通稿中仅透露使用了在2.5D封装常用的硅中介层,但结合苹果官方给出的宣传视频和动画模型来看,似乎使用了某种小型Si桥,在生产中实际上与英特尔的EMIB或AMD的Elevated Fanout Bridge (EFB)相似,两者均无凸点设计 。
除此之外,苹果是否为其GPU裸片集成设计了新的接口IP也让人浮想 。这一点在苹果的新闻通稿中未置一词,但从技术实现上来看,接口IP的重要性几乎仅次于微凸点和TSV技术 。于大全也表示,接口I/O变多,必须要采用新的解决方案 。这也是英伟达、AMD此前的重要发力点 。
AMD于2020年初宣布,将Infinity Fabric总线互联技术升级至Infinity Architecture,除了支持CPU-CPU集成外,还支持最多8个GPU芯片的连接以及CPU-GPU集成 。同时表示,其新一代El Capitan超级计算机将搭载Infinity Architecture,Genoa EPYC基于Zen 4架构,1个CPU与4个GPU裸片集成 。
英伟达早在2014年即推出了NVLINK,实现了芯片层级的GPU的高速互联,2016年,发布了搭载NVLINK的第一款产品P100,此后不断进行更新换代,并在NVLINK的基础上推出了NVIDIA NVSwitch,可在单个服务器节点中支持8-16个全互联的GPU,实现更高速度的通信 。
需要指出的是,在这一层面上,苹果方面的进展目前只能停留在猜测阶段,但苹果从来不会在技术不成熟的时候就推出产品,可以试图推断,苹果虽然并未在新闻稿中提到接口IP,但并不代表其在此方面并无突破,更大的可能是其对关键技术仍然有所保留 。
写在最后
无论如何,M1 Ultra的推出,除了再次拔高外界对苹果芯片能力的预期之外,还将GPU能力的扩展真正与先进封装绑定了起来,虽然GPU进入多裸片集成时代是早就被预测的,但被产品搭载进入商业化量产是完全不同的概念,且实现这一目标的是这一市场的新入者苹果,就更加耐人寻味 。
【Apple|苹果M1 Ultra解密:业内首个GPU裸片集成,如何实现?】这或许将意味着,在GPU领域,先进封装有望成为X因素,打破当前英特尔、AMD、英特尔三强争霸的格局,而掌握最高端先进封装技术的台积电亦或是英特尔,将拥有更大的话语权 。(校对/隐德莱希)

    推荐阅读