训练|寒武纪发布新款 AI 训练卡 MLU370-X8

IT之家 3 月 21 日消息 , 据寒武纪官方消息 , 寒武纪今天正式发布新款训练加速卡 MLU370-X8 , 搭载双芯片四芯粒思元 370 , 集成寒武纪 MLU-Link 多芯互联技术 , 主要面向训练任务 。
【训练|寒武纪发布新款 AI 训练卡 MLU370-X8】训练|寒武纪发布新款 AI 训练卡 MLU370-X8
文章图片

寒武纪表示 , 在业界应用广泛的 YOLOv3、Transformer 等训练任务中 , 8 卡计算系统的并行性能平均达到 350W RTX GPU 的 155% 。
IT之家了解到 , MLU370-X8 采用了 7nm 工艺 , 配备 48GB LPDDR5 内存 , FP32 单精度浮点性能达到 24 TFLOPS 。
训练|寒武纪发布新款 AI 训练卡 MLU370-X8
文章图片

据介绍 , MLU370-X8 智能加速卡提供 250W 最大训练功耗 , 可充分发挥 AI 训练加速中常见的 FP32、FP16 或 BF16 计算性能 。 寒武纪首次将双芯片四芯粒思元 370 整合在 MLU370-X8 智能加速卡中 , 提供了两倍于标准思元 370 加速卡的内存、编解码资源 , 同时搭载 MLU-Link?多芯互联技术 。
训练|寒武纪发布新款 AI 训练卡 MLU370-X8
文章图片

MLU370-X8 智能加速卡支持 MLU-Link?多芯互联技术 , 提供卡内及卡间互联功能 。 寒武纪为多卡系统专门设计了 MLU-Link 桥接卡 , 可实现 4 张加速卡为一组的 8 颗思元 370 芯片全互联 , 每张加速卡可获得 200GB / s 的通讯吞吐性能 , 带宽为 PCIe 4.0 的 3.1 倍 , 可高效执行多芯多卡训练和分布式推理任务 。
训练|寒武纪发布新款 AI 训练卡 MLU370-X8
文章图片

▲ MLU370-X8 单机 8 卡部署配置

    推荐阅读