杨帆|商汤为什么要建 AI 计算中心网络|人工智能|服务|运行|行业

文章图片

如何持续做技术产业化和商业化？这是属于商汤的「过程性资产」。
作者 | 凌梓郡
虽然「通用人工智能」到来尚远，但 AI 为各行业提供颠覆性「工具」的能力已经毋庸置疑。提供「工具」的前提是基础设施。
以 2021 年最引人瞩目的科学突破 AlphaFold2 为例， AI 用「暴力计算」的方式，准确预测了蛋白质的三维结构，解决了困扰结构生物学家 50 多年的难题。在这项突破背后，离不开谷歌提供的算力资源：128 块 TPU V3（大约相当于 100-200 个 GPU），运行了数周。
1 月 24 日，落座在上海临港新片区的「商汤科技人工智能计算中心」（AIDC）正式启动运营。其建筑面积 13 万平方米、项目总投资约 56 亿元、一期机柜数量 5000 个。设计算力为每秒 3740 Petaflops（1 Petaflops 为每秒千万亿次浮点运算）。与之相比，目前国内已知最大的人工智能的算力中心是鹏城实验室的鹏城云脑 II ，输出 1000 Petaflops 算力。
作为亚洲最大的 AI 软件平台公司，商汤科技很早就开始思考「基础设施」。对于商汤来说，面对的是复杂多样的场景，要源源不断提供各种算法，对基础设施的思考自然更为全面：它不仅仅是一个数据中心，高性能计算平台，也是为更多行业提供 AI 服务的物理基础。
算力仅仅是一个指标的维度。更大的算力，意味着能够处理更大量的数据。但是更关键在于「怎么能让这么大量的数据，进入到同一个算法网络中。」商汤科技联合创始人、副总裁杨帆解释说。

文章图片

01
通用的 AI 基础设施
商汤对 AI 基础设施的探索从 2018 年就开始了。
2018 年，商汤进行了原型机的预研项目，将 1000 块 GPU 卡连在同一个网络上，加载数据，并进行运算。在同一个网络上运行的难点在于，存储、计算、内部网络传输，这几个子系统之间需要形成紧密的耦合关系。
那时，商汤在没有任何可供参照的案例经验和实验场地条件下，进行项目预研。到了 2020 年 3 月， AIDC 立项启动， 7 月在上海临港新片区正式启动建设。仅仅用了 168 天，就完成了从开工建设到结顶的过程，刷新了临港建设的新纪录。杨帆表示，「我自己作为一个程序员出身的软件公司的负责人，头一次去干土建项目，真的是感慨万千。」
目前，商汤的业务主要分为智慧商业、智慧城市、智慧生活，以及智能汽车四个板块。在这个四个板块之下的「底座」，就是「SenseCore 商汤 AI 大装置」。而 AIDC 则是「底座的底座」。
SenseCore 商汤 AI 大装置是软硬一体的超大型通用 AI 基础设施。 AIDC 是 AI 大装置的物理承载。在这个物理基础上，运行着深度学习平台、以及超过 22000 个商用模型形成的模型层。
AIDC 的能力体现在「算力真正可以被连接在一个大的网络里，去做共同训练」。
技术亮点上， AIDC 拥有「大规模数据处理及高性能计算能力」。分布式的任务调度系统，可以在成千上万个 GPU 上动态调度数以万计的计算任务。与之匹配，数据的输入/输出（IO）也会面临巨大压力。存储和 IO 系统必须要支持数据的快速随机访问。商汤 AIDC 允许训练任务每秒加载超过两百万张图片，保证训练任务可以全速运行，不必等待数据。
数据是重要的生产资料，基础设施搭建的是一套系统。系统搭建得好，就能让系统内的数据发挥更大价值。
有了 AIDC 作为底层支撑，商汤提供服务的模式也随之优化。在过去，商汤以售卖软件的形式向客户服务。而有了 AIDC 之后，服务模式将更加接近云计算，直接提供端到端的服务。在使用过程中，像系统升级、迭代算法更新，可以在后台自动化实现。

文章图片

「商汤科技人工智能计算中心」（AIDC）
02
用大模型，降低创新成本
作为 AI 领域的头部企业，商汤一路走来历时 7 年多。杨帆表示， AI 产业经历了五、六年发展，新的趋势是产业链的分化。当 AI 进入不同的场景落地，经过了初期，面对更多分化的场景、中深度的需求。「创新的成本高」，成为了新阶段遇到的问题。其它行业期待以更低的成本获得匹配的算法，以解决问题。
从这个角度理解， AIDC 便是商汤在新阶段，降低创新成本，提高服务能力的「解法」：解决对多任务、多长尾场景覆盖的核心瓶颈问题。
比如，在传统的工业生产线上，客户希望 AI 算法能够检测钢铁的焊缝是不是符合标准。这个行业本来没有与之匹配的智能软件和平台，应用的矛盾就在于，以尽可能小的预算去解决这个问题。这样才是真正实现了降本增效。如果「一个算法本身要花几十万、上百万，算法确实有用，但是太贵了。」
如今，面对这样的需求时，商汤「通过 AIDC 的支撑和加持，能够让算法的生产成本下降到过去的 1/10 。」
要实现成本下降，就要充分利用大模型带来的优势。 AIDC 支持万亿参数大模型训练，可以衍生出超过 2 万多个商用模型，帮助产业界以极低的下游数据采集成本，快速验证多个新场景。
AI 行业里近年来出现了「大模型」的趋势。「用预训练大模型，去指导小模型的训练，实现跨场景应用方向。」杨帆介绍， AIDC 能够更好地支持大模型，再用大模型指导长尾模型的自动化生产、自动化训练，从而能够提高效率，降低成本。
大模型如何帮助实现长尾的细分场景呢？例如，有地方提出需求，希望算法能够检测到有人落水，然后发出通知，相关人员接到通知后第一时间前往救助。
使用大模型作为支撑的好处在于：遇到频率低，不常见的应用需求时，基于少量的专有数据，使用小样本达到结果。
03
助力国产芯片产业化
预计到 2024 年，所有服务器全部到位时， AIDC 国产化的硬件比例将超过 50% 。

文章图片

人工智能是软件硬件一体化的产业进程，芯片厂商也需要拥有解决软件适配问题的能力。而商汤搭建的 AI 基础设施的综合角色，可以使其在硬件、软件、应用的产业链上起到重要的沟通的作用。
作为 AI 基础通用设施，本身就包含了硬件层、平台层以及软件系统，同时连接着下游应用厂商。商汤与硬件、芯片厂商做适配，拉通应用侧需求的同时，也帮助节约其研发费用和时间成本。「整体上，加速了他们的市场化进程，帮助降低整体成本。」杨帆说。
除了促进国产芯片的市场化进行，商汤也正在探索从芯片、服务器、训练框架、算法到行业落地的 AI 生态。
2021 世界人工智能大会上，商汤与中国电子技术标准化研究院、中国信息通信研究院、清华大学、复旦大学、上海交通大学及多个行业伙伴共同成立了「人工智能算力产业生态联盟」。整个生态的探索分为前、中、后期。
杨帆介绍，在前期，配合芯片设计和流片的节奏，商汤定期组织深度闭门研讨会，让来自硬件设计、软件设计、计算等不同领域的专家共同交流，「希望尽可能在最开始，通过讨论交流，对于软硬件的边界，形成一个足够标准、通用的接口层的定义。」目的是在之后的软件和硬件迭代中减少无用功，降低成本。
在中期，在国产芯片适配完成，投入 AIDC 运营之后，商汤将扮演评估的角色，与中国电子技术标准化研究院（工业和信息化部电子第四研究院）建立「CESI-SenseTime 人工智能算力及芯片评测联合实验室」。实验室开展人工智能算力和芯片标准制定、人工智能芯片测评工具开发，提供人工智能计算中心、芯片测试验证服务和人才培训等支持。「这个实验室未来将成为一个测评机构，对每一款国产芯片的 AI 服务器，我们会提供一个相对中立的、第三方的，更加权威的评估评测。」
在长期看来，商汤也会把尽可能把优质的 AI 芯片及其服务器，导入整合到自己的解决方案，以及合作伙伴的解决方案中。
从技术创新的原点出发，到最终成为客户价值，中间包括了许多环节。从一个研究前沿算法的团队起家到亚洲最大的 AI 软件公司，历经七年，商汤积累了许多经验。
如何在技术持续创新、高速迭代的环境下，持续做技术产业化和商业化？杨帆总结，「在推动创新产业化这件事上，我们内部有大量的积累和沉淀」，这是属于商汤的「过程性资产」。当将技术创新到产生客户价值的周期不断缩短，甚至短至三四个月，「我觉得这是商汤今天某种意义上，对行业或产业而言，更大的一个核心竞争力所在。」
*头图来源：商汤科技
本文为极客公园原创文章，转载请联系极客君微信 geekparker
【杨帆|商汤为什么要建 AI 计算中心】直播预告

杨帆|商汤为什么要建 AI 计算中心

推荐阅读

猴年拜年短信拜年短信春节祝福语

中国银行汉口分行旧址在哪？中国银行汉口分行旧址景点介绍

每日沧州沧州昨天傍晚冰雹大风！有地方大树被拦腰吹断！屋顶被大风掀翻

累的说说心情短语句子

米色搭配什么颜色好看米色配什么颜色时尚好看

双鱼座会为爱牺牲自己的什么

滤泡性淋巴瘤复发率及治疗方法

夸奖爱人升职的祝福语

痰湿体质的人怎样减肥呢

《蓝军出击》于震不走寻常路，“山豹旅”今晚见

中老年丝巾搭配穿出时尚范

多囊跑步三月怀孕

什么是鸭曲霉菌病

珍珠丸子的做法（热菜菜谱）

倒车入库如何看延长线其实很简单记住这七点即可

非处方青春姚舜禹结局姚舜禹剧中角色

海底捞孕妇要排队吗孕妇能吃火锅吗

完整的葡萄酒之旅怎么少得了这10款酒

美国人的主餐是什么啊

羊水指数和羊水深度有什么区别？羊水指数和羊水深度的区别