数量|别让低性能存储拖后腿!教你一招驶入AI快车道

当前 , 随着AI(人工智能)技术的日趋成熟和疫情的影响 , 整个社会加速进入以人工智能为代表的数字化新常态 。 AI应用已逐渐渗入到我们生产、生活的方方面面 , 并产生积极影响 。 比如 , AI在人脸识别、机器人客服、智能质检、辅助医疗、自动驾驶、风评风控等领域快速响应 , 提高了效率 。 在今年发布的国家“十四五“规划纲要中 , 人工智能更是被重点提及 , 已上升为国家战略高度 , 成为新一轮科技革命和产业变革的重要驱动力量 。
面对扑面而来的AI旋风 , 在Gartner2020年的一份调查中 , 超过85%的CIO表示将在两到三年内为企业部署AI(人工智能)和ML(机器学习) 。
在人工智能发展的三个要素数据、算力和算法中 , 数据和算力主要受限于信息基础设施的建设 。 随着AI/ML在各行各业中多点开花 , 数据作为关键生产要素的作用愈发突出 , 海量数据的采集、存储、访问和应用让存储层挑战越来越大 。
AI 时代 , 计算之外的存储架构挑战
AI 时代 , 算力是产业发展的推力 , 要保证 AI 应用的持续高效运行 , 承载数据的存储系统也必须跟上时代的步伐 。 如何在有限资源投入下 , 充分发挥算法算力优势 , 最大限度地推动AI应用落地和释放数据价值 , 已经成为信息基础设施运营者们迫切需要解决的问题 。 其挑战主要体现在以下几个方面:
1.如何接入和保存各类来源、各种格式的数据 , 真正做到“海纳百川”?
在大量的AI场景之中 , 海量非结构化数据(图片、视频、音频、文档等)占据主流 , 单个文件通常很小 , 一般大小仅为几KB或几百KB , 但文件数量极大 。 例如在金融领域 , 金融业务不仅产生大量原始票据扫描件 , 还有电子合同、签名数据、人脸识别数据等 , 数量甚至可以高达数十亿级规模;在自动驾驶领域 , 单个数据集可能就包含10万+数量的视频、图片及相应标准 , 近年来又增加了许多雷达数据 , 总数据量往往达到几百TB甚至数PB , 这对于存储的吞吐量、延迟要求极高 。
在大多数企业中 , 数据通常以业务线为单位组织和管理 , 并且多数情况下 , 使用的是不同的中间件技术 。 随着云计算特别是容器技术的不断发展 , 大量基于物理机和虚拟机等传统IT架构的应用被迁移到云平台上 , IT架构不断演变 。 如何有效整合新型IT架构与现有存储设备成为难题 。
2.机器学习开发 , 如何满足各阶段对数据的存储和管理要求?
如下图所示 , 机器学习开发大致分为4个大的阶段:数据集中与归档、数据准备、模型训练、推理 。 不同阶段对底层存储的要求不同 。

数量|别让低性能存储拖后腿!教你一招驶入AI快车道

推荐阅读