技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍

机器之心报道
机器之心编辑部

公司成立仅 5 年 , 寒武纪科技就已推出三代云端 AI 芯片 , 并实现了四次处理器架构的迭代 。
又一款重磅国产 AI 芯片发布了 。
11 月 3 日晚间 , 寒武纪宣布推出自研第三代云端 AI 芯片思元 370 , 及搭载该芯片的 MLU370-S4、MLU370-X4 加速卡和全新升级的 Cambricon Neuware 软件栈 。
思元 370 是寒武纪首款采用 chiplet(芯粒)技术的 AI 芯片 , 应该也是国内首颗 chiplet AI 芯片 。 基于台积电 7nm 制程工艺 , 整体集成了 390 亿个晶体管 , 最大算力达到 256TOPS(INT8) , 这一数据是寒武纪第二代产品思元 270 算力的 2 倍 。
凭借寒武纪最新智能芯片架构 MLUarch03 , 相较于峰值算力的提升 , 思元 370 实测性能表现非常亮眼:同功率性能超过 T4 两倍还多 , 完成同样的任务 , 功耗可以是 A10 的一半 。
自思元 100 以来 , 寒武纪在三年之内已经连续推出三代云端 AI 芯片 , 最新一代产品在工艺制程、架构、指令集和软件等方面有了全面的提升 , 实现了同级芯片的顶尖水平 。
一半功耗 , 实现业内领先性能
此次发布中 , 寒武纪推出了两款基于思元 370 的加速卡:一款高密度、半高半长、功耗 75W 的 MLU370-S4 智能加速卡和高性能、全高全长、功耗 150W 的 MLU370-X4 智能加速卡 。
与上一代产品相比 , 思元 370 系列加速卡在性能、能效方面都有大幅度提升 。 例如对标准 ResNet-50v1 进行软件定制优化后 , MLU370-X4 加速卡性能高达 30204 fps 。

技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
文章图片

寒武纪 MLU370-X4 加速卡 。
寒武纪表示 , 在 Cambricon Neuware SDK 上实测 , 常用的 4 个深度学习网络模型中 , MLU370-S4 加速卡的性能平均接近市场主流 70W GPU 的 2 倍 。 而在能效方面 , MLU370-S4 优势更为明显 , 处理相同 AI 任务相较于 70W GPU 用电量减少 50% 以上 。

技术|寒武纪发布云端AI芯片思元370,chiplet技术打造,性能大幅提升2倍
文章图片

相比主流同尺寸 GPU 产品 ,MLU370-S4 加速卡的性能优势 。
MLU370-S4 加速卡在解码方面具有优势 , 相较于同尺寸 GPU , 其可以提供 3 倍的解码能力和 1.5 倍的编码能力 。 总体而言 , MLU370-S4 加速卡着重体现了高密度优势 。 MLU370-X4 加速卡的优势则表现为高性能 , 算力可达 256TOPS(INT8) , 加强了 FP16、FP32 的计算性能 , 新增 BF16 计算类型 。
在 Cambricon Neuware SDK 上进行实测可知 , 常用的 4 种深度学习网络模型中 , X4 加速卡与市场主流 150W GPU 相比 , 性能表现 2 项持平 2 项更优 , 实测能效则为 GPU 的 2 倍 。 如 YOLOv3 物体检测网络中 , MLU370-X4 的性能是 150W GPU 性能的 1.5 倍 , 能效为 GPU 的 2.5 倍 。

推荐阅读