方面|“存内计算”照进现实

方面|“存内计算”照进现实
文章图片

存内计算由于突破传统冯·诺依曼架构瓶颈 , 实现了存储单元与逻辑单元的融合 , 成为实现智能计算的主要技术路线之一 , 受到业界龙头大厂的高度重视 。 在近日召开的国际固态半导体电路会议(ISSCC)上 , SK海力士发表了基于GDDR接口的DRAM存内计算 , 台积电共发表(或合作发表)6篇有关存内计算存储器IP的论文 。 随着人工智能对高性能、低功耗处理需求的不断增强 , 存内计算的开发进程必将不断加快 , 并走向现实应用 。
存内计算受关注龙头大厂重点布局
【方面|“存内计算”照进现实】ISSCC一向是半导体产业界展示最新研发成果的平台之一 , 在今年的发布重点中 , 存内计算无疑位列其中 。 SK海力士发表存内计算的开发成果——基于GDDR接口的DRAM存内计算 , 并展示了其首款基于存内计算技术产品——GDDR6-AiM的样本 。
SK海力士表示 , GDDR6-AiM是将计算功能添加到数据传输速度为16Gbps的GDDR6内存产品中 。 与传统DRAM相比 , 将GDDR6-AiM 与CPU、GPU相结合的系统可在特定计算环境中将计算速度提高16倍 。 此外 , 由于存内计算在运算中减少了内存与CPU、GPU间的数据传输往来 , 大大降低了功耗 , GDDR6-AiM可使功耗降低80% 。 SK海力士解决方案开发担当副社长安炫表示:“基于具备独立计算功能的存内计算技术 , SK海力士将通过GDDR6-AiM构建全新的存储器解决方案生态系统 。 ”
台积电在存内计算研发方面的投入也很大 。 在本届ISSCC上 , 台积电共合作发表了6篇关于存内计算存储器IP的论文 , 其中一篇的作者全部来自台积电 , 其余5篇则是台积电和其他高校合作 。 台积电独立发表的SRAM论文基于5nm工艺 , 可以在不同计算精度下实现高计算密度和能效比 。
事实上 , 三星、IBM、东芝、英特尔等半导体大厂在存内计算方面也早有布局 。 三星在2021年发布的HBM2-PIM , 使用Aquabolt-XL技术围绕HBM2 DRAM进行存内计算 , 可实现高达1.2TFLOPS的计算能力 。
国内厂商方面 , 阿里达摩院、知存科技、Myhtic等也以AI为契机 , 积极进行特定领域、特定功能的AI存算一体芯片开发 。 去年5月 , Myhtic宣布完成C轮7000万美元融资 。 去年6月 , 知存科技宣布完成亿元A3轮融资 。
AI应用需求推动迈入产品化前夜
随着人工智能应用的爆发 , 业界迫切需要一项技术来解决传统冯·诺依曼架构存在的算力瓶颈与高功耗问题 。 这也是一众半导体大厂关注存内计算的主要原因 。
对此 , 有业内专家告诉采访人员 , 当前主流的计算架构均采用冯·诺依曼架构 , 其存在两个固有问题 , 即所谓的内存墙问题和功耗墙问题 。 冯·诺依曼架构的计算单元与存储单元分置 , 之间用数据总线连接 , 运算过程中就需要使数据在处理器与存储器之间进行频繁迁移 , 这一过程产生的功耗极为巨大 , 甚至比真正用于数据处理所产生的功耗还要高上百倍 。 内存墙则是指目前的CPU运算速度比存储器的数据存取速度快得多 , 存储器成为制约数据处理速度提高的主要瓶颈 。 现在人们应对这个问题的主要方法是提高内存的处理速度或加大数据传输带宽 , 但这些都不能从根本上解决问题 , 开发一种将存储单元与处理单元完全整合的处理器方案 , 就成为解决这一问题的终极方案 。
SK海力士定制设计项目负责人Dae-han Kwon也指出:“对于RNN(循环神经网络)等内存受限的应用程序 , 当应用程序在DRAM中使用计算电路执行时 , 性能和功率效率有望显著提高 。 考虑到要处理的数据量将大幅增加 , 存内计算有望成为改善当前计算机系统性能极限的有力候选者 。 ”
正是在人工智能特别是边缘AI应用需求的推动下 , 存内计算的产品化开发进程也在加快 。 根据北京大学信息科学技术学院微纳电子学系副教授叶乐的介绍 , 存内计算技术大概率会实现产品化 。 目前基于SRAM的存内计算 , 已经进入到产品化的前夜 , 有望率先在可穿戴设备、智能手机等智能物联网AIoT领域应用 , 估计1~2年就有望看到产品级的SRAM存内计算芯片实现商业化落地 。 在此之后 , 存内计算芯片会逐渐往更大算力的应用领域渗透 。 基于MRAM的存内计算则会稍微滞后一些 , 这主要跟工艺可获得性有关 。 基于DRAM的存内计算芯片 , 有可能需要更长的时间才会落地 , 原因在于DRAM存内计算适用于大算力AI芯片 , 因此还需要解决其他一系列的技术难题 , 例如阵列间的互连和架构问题等 。 此外 , 大算力芯片 , 往往对通用性和可编程性要求更高 , 因此对于大算力芯片 , 架构需要更多地考虑通用性和可编程性 , 并且软硬件协同设计、编译器等工具链的重要性和难度也更为突出 。
叶乐强调 , 不同应用场合对存内计算的需求也不同 , 消费电子、物联网终端、边端计算、云端计算对功耗、能效、算力密度、Bit精度、绝对算力、成本、是否需要非易失性等方面的侧重点和侧重程度各不相同 , 因此各类存内计算技术 , 均有发展的必要性 。
生态搭建有挑战存内逻辑是方向
尽管存内计算的商业化进程不断临近 , 但在开发与应用中存在的挑战也不容忽视 。 业内专家指出 , 相较于传统处理器 , 存内计算本身就是一门非常复杂的、技术壁垒极高的设计方法 , 属于需要多年经验积累、大量资源以及时间投入才能实现的尖端领域 。 而更大的挑战还涉及相关产业生态的整合 , 其中面临的挑战更加复杂 。
在冯·诺依曼架构下 , 处理器与存储器是分别独立发展的 , 经过这么多年均已各自形成独立的产业生态 , 从设计到制造再到软件都已相当完备 。 而存内计算要想发展起来 , 实际是要将两个独立的生态整合到一起 , 其中要投入的精力和资源是非常巨大的 。
尽管存内计算面临技术开发与产业生态的双重挑战 , 但是其整体发展趋势依然被看好 。 叶乐指出 , 存内计算将是大势所趋 , 只有这种革命性的彻底的架构革新 , 才能真正解决内存墙和功耗墙的问题 。 从技术趋势上看 , 存算一体芯片将循着近存储计算、内存储计算、内存执行计算的技术路线发展 。
此外 , 基于哪类存储进行存内计算设计也是开发重点之一 。 此次SK海力士便基于DDR进行开发的 , 台积电则是基于SRAM 。 对此 , 专家指出 , 目前开发者的研究之所以多基于SRAM展开 , 一方面是因为SRAM比较容易获得 , SRAM在标准CMOS工艺下即可得到 , 流片门槛较低 。 另一方面则因SRAM的存取速度是所有主流存储器中最接近CPU的 , 基于它进行存内计算开发 , 最容易解决内存墙问题 。 但是SRAM也存在芯片成本高、面积大的问题 。 更重要的是 , SRAM属易失性存储器 , 断电后数据无法保存 , 还要把数据传输到其他NAND Flash等存储器当中 , 并不能从根本上解决功耗问题 。 NAND闪存等非易失性存储器可以保存处理后的数据 , 还具有成本低、容量大等优势 , 但是NAND闪存的存取速度慢 , 依然限制着未来存内计算芯片的速度 。
因此 , 专家认为 , 对于那些投入存内计算开发的半导体大厂来说 , 将来更大的可能是基于新型存储器如MRAM、ReRAM等 , 做存内计算的开发 。 此类新型存储器一些性能上的优势是传统存储器所不具备的 。 当然 , 专家也指出 , 当前业界开发的新型存储技术工艺还不成熟 , 以之为基础进行存内计算或许需要的更长研发时间 。 (采访人员 陈炳欣)

    推荐阅读