快来了解 OSDI 2021 的最佳论文吧。
OSDI(Operating Systems Design and Implementation)是计算机系统软件领域的世界顶级会议之一。 被誉为“操作系统原理领域的奥斯卡”,具有极高的学术地位。 它由 USENIX 主机组织。
USENIX成立于1975年计算机软件系统应包括,原名Unix User Group。 它的主要目的是学习和开发 Unix 及类似系统。 后来,用户组更名为“USENIX”。 OSDI 汇集了学术界和工业界的专业人士,是讨论系统软件的设计、实施和影响的首要论坛。
事实上,OSDI所涵盖的领域已经远远超出了操作系统。 OSDI和SOSP是系统领域的两大顶级会议之一。 经典的机器学习框架 TensorFlow 最初发布于 OSDI。 因此,OSDI的获奖论文是想要深入系统领域的研究人员的必读之作。
第15届USENIX OSDI将于2021年7月14日至16日在线举行,最佳论文等奖项陆续揭晓。 卡内基梅隆大学(CMU)邢博教授的研究团队获得了3篇最佳论文,其中一篇获奖。 一起来看看3篇最佳论文的具体内容吧。
最佳论文
论文 1:MAGE:用于安全计算的近乎零成本的虚拟内存
论文地址:~samkumar/papers/mage_osdi2021.pdf
安全计算(Secure Computation,SC)是指用于在单方和多方设置下计算加密数据的一系列密码原语。 尽管 SC 在各种行业应用中的使用越来越多,但在实际应用中使用 SC 的一个重大障碍是底层加密的内存开销。 本研究提出了一种新的 SC 执行引擎 MAGE,它可以在不适当的内存开销下高效地执行 SC 计算。 研究人员观察到,SC 方案本质上是无视的,即,由于其预期的安全保证,它们的内存访问模式独立于输入数据。 使用此属性,MAGE 提前计算内存访问模式,并使用此属性生成内存管理计划。 这种形式的内存管理,可称为内存编程,是分页的一般化,它允许 MAGE 为 SC 提供有效的虚拟内存抽象。 MAGE 的性能优于 OS 虚拟内存系统一个数量级,并且在许多情况下,内存不足的 SC 计算几乎与底层机器具有无限物理内存来满足整个计算一样快。
如下图所示,MAGE的工作流程分为两个阶段。 SC 应用程序是用 C++ 中的 DSL 编写的。 MAGE 的 planner 展开 DSL 代码生成字节码,然后对字节码进行转换生成内存程序。
MAGE 的规划器工作流程分为三个阶段:布局、替换和调度。
论文 2:Pollux:Goodput 优化深度学习的协同自适应集群调度
大多数现有的调度程序都希望用户为每个作业指定资源量,这通常会导致资源使用效率低下。 最近,一些调度程序帮助用户选择资源分配给作业,但忽略了重新优化深度学习训练以更好地利用提供的资源。 本研究中提出的 Pollux 通过在每个作业和集群范围内自适应地共同优化相互依赖的因素来提高深度学习 (DL) 集群的调度性能。
该研究考虑了上述两个方面,并提出了一种称为 Goodput 的新指标,它将系统吞吐量与统计效率相结合。 通过在训练期间监控每个作业的状态,Pollux 模拟每个作业在添加和删除资源时的实际输出变化。 使用此信息,Pollux 动态(重新)分配资源以提高集群范围的吞吐量,同时尊重公平并不断优化每个深度学习作业以提高资源利用率。
在真实深度学习作业和跟踪驱动模拟的实验中,与 SOTA 深度学习调度程序相比,Pollux 将平均作业完成时间减少了 37-50%,并为每个作业和训练配置提供了理想的资源。 Pollux 基于对有用作业完成进度的更有意义的衡量,提高了深度学习作业竞争资源的公平性,并揭示了降低云环境中深度学习成本的新机会。
Pollux 的合作自适应调度架构。
论文 3:DistAI:分布式协议的数据驱动自动不变学习
论文地址:
摘要:分布式系统很难得到正确的解决方案,主要是因为它们的不确定性。 寻找分布式协议的归纳不变量是验证分布式系统正确性的关键步骤,但即使是简单的分布式协议也需要很长时间。 这项研究介绍了 DistAI,这是一种数据驱动的自动化系统,用于学习分布式协议的归纳不变量。 DistAI 通过模拟具有不同实例大小的分布式协议并将状态记录为样本来生成数据。 观察到不变量在实践中通常是紧凑的,DistAI 从小的不变量开始,并枚举适用于所有样本的可能最强的不变量。 然后,DistAI 将这些不变量和所需的安全属性提供给 SMT 求解器,以检查不变量和安全属性的组合是否具有归纳性。
从较小的不变量和可能最强的不变量开始避免大型 SMT 查询并提高 SMT 求解器的性能。 因为 DistAI 从可能最强的不变量开始,如果 SMT 失败,DistAI 不需要丢弃失败的不变量,它会单调削弱这些不变量并用求解器重试,重复这个过程直到最后成功。
研究表明,DistAI 能够找到“∃-free”归纳不变量,如果存在,则证明在有限时间内存在所需的安全属性。 该研究的评估实验表明,DistAI 成功地自动验证了 13 种常见的分布式协议,并且在验证的协议数量和速度上都优于其他常用方法,在某些情况下,它比其他方法高出两倍。 数量级。
下图是DistAI的工作流程,从IVy的分布式协议规范开始,首先,DistAI进行两阶段采样; 其次,DistAI 进行枚举运算; 然后,DistAI 向 IVy 提供候选不变量,而 IVy 要么成功地将不变量与所需的安全属性组合为归纳不变量,要么以假不变量失败; 最后计算机软件系统应包括,DistAI 执行单调优化。
专业知识和方便的观看