该工作针对共享云环境下系统软件栈多层次调度器之间不协调的问题,提出了基于纵向标签的协同调度机制——时空共享调度抽象TPShare。由于当前云计算系统软件栈调度层次多,包含了单节点操作系统调度器、云操作系统调度器以及应用框架中的任务调度器(如Spark),而各层次间的调度状态无感知、不协调问题,不仅导致了集群资源浪费现象,而且严重影响了应用程序的性能。TPShare通过基于双向标签的通信协议设计,实现相邻调度层之间调度状态/资源需求等关键信息的流动和有效利用。基于云计算操作系统Mesos和数据分析应用框架Spark、流处理框架Flink,该论文开发出了一个TPShare抽象的实现原型。实验表明,在各类应用混部的环境下,TPShare不仅能提高云调度器的吞吐率2x以上,而且有效降低了延迟敏感应用的尾部延迟,平均达45%。
ISCA会议创办于1973年,是由ACM SIGARCH(计算机系统结构特殊兴趣组)和IEEE TCCA(计算机架构技术委员会)联合举办的体系结构领域的顶级会议,致力于展示和讨论计算机体系结构中的新思想和最新研究成果,与ASPLOS, HPCA, MICRO并称体系结构领域的“四大顶会”。参会对象包括微体系结构、云计算、计算机系统等领域的研究人员或学生。2019年的ISCA会议将于6月22至29日在美国凤凰城召开。

时空共享的调度抽象

TPShare和Mesos上的尾延迟比较