软件|寒武纪发布第三代云端AI芯片思元370 产品进入早期销售阶段

11月3日 , 寒武纪(688256)发布第三代云端AI芯片思元370、基于思元370的两款加速卡MLU370-S4和MLU370-X4、全新升级的CambriconNeuware软件栈 。
基于7nm制程工艺 , 思元370是寒武纪首款采用chiplet(芯粒)技术的AI芯片 , 集成了390亿个晶体管 , 最大算力高达256TOPS(INT8) , 是寒武纪第二代产品思元270算力的2倍 。 思元370也是国内第一颗支持LPDDR5内存的云端AI芯片 , 内存带宽是上一代产品的3倍 , 访存能效达GDDR6的1.5倍 。
同时 , 寒武纪全新升级了CambriconNeuware软件栈 , 新增推理加速引擎MagicMind , 实现训推一体 , 显著提升了开发部署的效率 , 降低用户的学习成本、开发成本和运营成本 。
新一代智能处理器架构
寒武纪智能处理器架构MLUarch03 , 拥有新一代张量运算单元 , 内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术 , 在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集 , 更完备 , 更高效且向前兼容 。
值得强调的是 , 寒武纪坚持自研智能芯片架构、指令集 , 是全球范围内在该技术方向积累最为深厚的公司之一 。 MagicMind是寒武纪全新打造的推理加速引擎 , 也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎 , 用户仅需投入极少的开发成本 , 即可将推理业务部署到寒武纪全系列产品上 , 并获得颇具竞争力的性能 。
思元370升级了视频图像编解码单元 , 可提供更高效的视频处理能力和更优的编码质量 , 支持更复杂、更繁重、低延时要求的计算机视觉任务 。
此次发布中 , 两款基于思元370的加速卡正式亮相:高密度、半高半长、功耗75W的MLU370-S4智能加速卡和高性能、全高全长、功耗150W的MLU370-X4智能加速卡 。 与上一代产品相比 , 370系列加速卡在性能、能效方面都有更为卓越的表现 。 例如 , 对标准ResNet-50v1进行软件定制优化后 , MLU370-X4加速卡性能高达30204fps 。
据了解 , 此次寒武纪发布了两款加速卡 , 未来还将推出更多基于思元370的产品 。
产品进入早期销售阶段
从云端推理思元270、边缘推理思元220、云端训练思元290 , 到最新发布的推训一体思元370 , 寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品 。 此次发布的256TOPS算力的思元370主要面向中高端推训场景 , 与主要面向训练的512TOPS高端产品思元290形成协同 , 共同为客户提供全功能、全场景的智能算力 。
思元370在2020年三季度流片 , 相关加速卡产品于2021年二季度陆续送测客户 。 目前 , 部分客户已完成测试、导入 , 产品进入早期销售阶段 。

推荐阅读