数人云联合清华OCP实验室共建深度学习平台

责任编辑：jcao |来源：企业网D1Net 2016-11-14 14:47:52 本文摘自：企业网D1Net

《企业网D1Net》11月14日（北京）近日，数人云与清华大学交叉信息研究院开放计算项目实验室(OCP实验室)合作共建深度学习平台，该平台通过数人云操作系统实现GPU资源共享，利用Docker技术交付深度学习的运行环境，让深度学习项目组师生可以更加灵活地使用GPU资源，并解决深度学习环境部署繁琐的问题。

深度学习算法的计算性能依赖强大的GPU计算能力，为了尽可能提高GPU资源利用率，数人云利用Mesos将GPU资源汇聚成资源池实现资源共享，并借用Docker交付深度学习的运行环境。

深度学习平台利用nvidia-docker ( https://github.com/NVIDIA/nvidia-docker )容器化深度学习组件，同时，借助数人云搭建GPU集群，共享GPU资源。最终，为用户提供了可一条命令部署深度学习环境的平台。

NVIDIA GPU，平行计算平台CUDA与Docker 的集成

在节点内部，数人云利用nvidia-docker帮助容器内部的程序调用外面主机上的CUDA Driver。CUDA Driver及GPU Driver安装在外部Host上，CUDA Toolkit，及其它深度学习组件及用户应用程序运行在Docker容器中。这样既能快速配置环境，又保证了HOST不受用户应用程序污染。

数人云打造的GPU集群，将深度学习的任务分配到服务器上，采用分布式计算方法，极大程度上提高了GPU的资源利用率。

2015年6月，Facebook资助清华大学交叉信息研究院，成立中国唯一的一家OCP实验室，自2015年9月开始，数人云和清华大学交叉信息研究院助理院长徐葳博士合作在OCP实验室开展数据中心方面的相关研究工作。今年3月，数人云联合清华大学OCP实验室完成“百万并发”压力测试，数人云通过10台OCP服务器成功承载了百万并发HTTP请求，并进行了广泛的性能测试。

关键字：数人云 OCP 云计算容器