调度|华为云瑶光,获全球计算机顶会SOSP论文收录

在刚刚结束的全球计算机系统领域顶级会议SOSP 2021上 , 华为云发表的关于瑶光调度算法的论文 , 创造性地提出了一种普适的负载生成模型以及生成方法 , 被大会收录 。 同时 , 这也是本次大会唯一收录的中国云计算公司技术论文 。

Symposium on Operating Systems Principles (SOSP) 始办于1967年 , 被誉为计算机系统领域的奥斯卡 , 是由ACM组织的计算机科学领域顶级会议 。 包含开启互联网时代的Arpanet , 分布式系统设计公理的CAP原则 , 公有云标志性论文Amazon Dynamo等都是在SOSP会议上发表 。 作为系统领域的最高学术会议 , SOSP对论文要求极高 , 本届SOSP论文接受率仅为15.5% 。

调度|华为云瑶光,获全球计算机顶会SOSP论文收录
文章图片


调度|华为云瑶光,获全球计算机顶会SOSP论文收录
文章图片

【调度|华为云瑶光,获全球计算机顶会SOSP论文收录】华为云本次提交的论文《Generating Complex, Realistic Cloud Workloads using Recurrent Neural Networks》由华为云瑶光调度算法团队主导 , 主要提出了使用 RNN 模型来生成复杂的 Cloud Workloads , 用于辅助优化云资源的调度 , 为解决云上超大规模调度提供一套突破性的理论模型 。
预见未来 , 不断突破理论最优解 基础科学是云计算的重要理论基础 , 如果云厂商能够精准预测未来一段时间的Workload , 就可以对资产进行更为高效地规划 , 为客户提供更优的使用体验 。 传统建模方式 , 仅基于历史数据来进行预测和调优 , 通常存在如数据量规模小、灵活性差、失效快等问题 , 同时基于各种独立性假设 , 使得建模结果与真实数据的拟合度较低 , 难以生成真实的、质量高的Workload , 导致最终难于做出精准决策 。
论文中创造性地提出一个全新的算法 , 以历史数据为输入 , 经过Batch Arrival、Resource、Lifetime三个数学模型 , 产生一段包含每个VM创建时间、结束时间以及对资源请求的Trace , 最终生成复杂且真实的Cloud Workload 。

调度|华为云瑶光,获全球计算机顶会SOSP论文收录
文章图片

下图展示了对一段时间内 CPU 资源请求量的 Workload , 可以看到使用LSTM模型相比传统模型可以更好地拟合真实的数据 , 从而辅助云厂商进行更精确的资源配置 。

调度|华为云瑶光,获全球计算机顶会SOSP论文收录
文章图片

华为云瑶光 , 云上实践与算法理论的绝佳融合
调度|华为云瑶光,获全球计算机顶会SOSP论文收录
文章图片

华为云瑶光分布式云操作系统 , 是面向云、5G、AI时代打造的智慧云脑 , 依托全域调度、动态协商与治理、多样性算力智能匹配等能力 , 让全域资源供给极优 , 多样性算力使用极简 。 其算法打破70项由全球优化算法领域权威机构SINTEF维护的PDPTW榜单纪录 , 成为中国研究机构中最多纪录的保持者 , 并获得GECCO 2020国际会议OCP与USCP运筹优化算法赛道的双榜首 。 本次的研究成果 , 也是华为云瑶光在分布式云资源调度、智能决策与优化等技术领域的再一次突破 , 为华为云平稳高效运行提供技术保障 。

推荐阅读