AI芯片混战,谁能挑战英伟达?( 十 )

Graphcore表示,一个4“Colossus”GC2(8芯片)服务器提供500 TFlops(每秒万亿次运算)的混合精度性能。单个英伟达V100可提供125 TFlops,因此从理论上讲,4个V100应提供相同的性能。与往常一样,问题在于细节,只有对代码进行重构以执行TensorCore执行的4x4矩阵乘法时,V100峰值性能才可用,Graphcore架构巧妙地避免了这一限制。更不用说V100价格昂贵,且耗电量高达300瓦。此外,Graphcore支持片上互连和“处理器内存”(片上存储器)方法,这可能会带来超出TFlops基准测试所暗示的优秀应用性能。在一些神经网络中,如生成性对抗网络(GAN),内存是瓶颈。

再次强调,我们将不得不等待真实的用户用实际应用结果来评估此架构。尽管如此,Graphcore的投资者名单、专家名册和超高的估值告诉我,这可能是一个好东西。

图2:GraphCore展示了处理ImageNet数据集的这张非常酷的图片。这种可视化可以帮助开发人员了解他们的训练处理消耗了处理周期中的哪些部分。

Habana Labs

去年9月,以色列初创公司Habana Labs在第一届人工智能硬件峰会上宣布,它已准备好推出第一款用于推理的芯片,并以创纪录的性能运行卷积神经网络进行图像处理,这令许多人感到意外。结果显示,在Resnet50图像分类数据库中,该处理器每秒分类15,000张图像,比英伟达的T4高出约50%,功耗仅为100瓦。2018年12月,Habana Labs的最新一轮融资由英特尔风险投资(Intel Venture Capital)领投,WRV Capital、Bessemer Venture Partners和Battery Ventures跟投,该公司的融资也由此前的4500万美元增加了7500万美元。最近的资金将部分用于其名为“Gaudi”的第二款芯片的流片,该芯片将专注于训练市场,据称可扩展到1000多个处理器。在这个竞争激烈的领域,Habana Labs表现出很多希望。

推荐阅读