曙光深度学习技术加速生物大数据处理

责任编辑：editor006 |来源：企业网D1Net 2015-11-11 15:47:28 本文摘自：IT168

在地球漫长的进化中，我们人为地造成了很多悲剧：渡渡鸟、长毛象大海燕袋狼……

这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100多个物种在走向灭亡。

我们不想孤独的生活在地球上，我们希望可以和这些生物和平共存。

现在，基因学给了我们新的希望，我们可以通过克隆复原这些动物了。只要从他们的化石标本上提取足够的DNA，找到基因数据进行分析，排列出完整的DNA样本，就有机会让这些灭绝的动物重新复活。因此建立生物基因医学体系十分重要。

深度学习加速生物大数据处理速度

随着生命科学的迅猛发展，生物医学领域的数据量呈指数形式增长，生物医学数据表现为数据量大(Volume)、多样化(Variety)、有价值(Value)、高速(Velocity)等特点。有学者指出，“生物学未来的新瓶颈在于大数据问题”。

一次人类基因测试实验最大可产生约600G原始数据，典型的医疗数据很容易达到PB级，如何更高效地处理这些数据，成为生物医学领域面临的迫切问题。

XSharp是曙光公司专为深度学习技术而开发的一款软件产品，分别从分布式并行系统优化、分布式并行机器学习执行模式优化、大规模机器学习算法工具集三个层面提供深度学习优化策略，帮助用户实现应用优化。

深度学习技术的发展，为大数据处理提供了一种全新方法。曙光公司联合中科院计算机所，在生物医学处理方面取得了长足进展，大大加速了生物大数据处理速度。

生物医学大数据独具特色

生物医学领域数据有其自身特点。

1.数据量大：生物医学领域数据量十分庞大。仅人类DNA信息就多达60ZB，若为每个中国公民完成基因测序，数据量将超过1000EB，如此庞大的数据量，无论是存储还是处理，都将是一场噩梦。如今，只需几千美元和几个小时，即可完成一个人基因组的解析，低廉高效的研究方式得到生物科学家们的青睐，大量的物种得以测序解析，使得生物研究进入的生物数据的海洋，而积累的原始数据也必将迅速增长。

2.数据多样化：测序仪器种类繁多，产生的数据格式也各不相同。同时，利用不同的生物信息分析软件或分析流程处理得到的结果也是千差万别。深度学习技术是一种全新的数据分析工具，可以在生物图像信息处理中发挥重要作用。

3.价值高：随着生物信息学的发展，越来越多有价值的信息从生物数据中挖掘出来，这些价值不仅体现在生物科研领域，而且已应用于农业、健康和医学等领域。

4.高速：生物医学数据量急剧增长的速度让人惊叹，而且数据的多样化和价值也必将在快速处理中得以体现。

目前的生物医学领域，高通量成像数据分析算法的时间复杂度为O(year)，科学家希望通过交互式和高精度的并行计算平台，将时间复杂度降低为O(minutes)，为实现这个目标，以“大数据+HPC”为理论基础的曙光XSharp软件成为生命科学大数据处理和分析的利器。

XSharp：成熟的深度学习实践平台

曙光XSharp软件整体分为算法接口、层级操作和虚拟后端三个逻辑层面，整体设计以加速应用为目标，为用户提供标准算法接口;利用网络层、分布式并行等层级操作，实现应用加速和优化;底层将传统的HPC硬件进行虚拟化，提供统一接口，完成深度学习的硬件实现。

小编释义

算法接口。从Model、Rule、Activation、Metric等方面向应用提供标准算法接口。XSharp是一个开放平台，我们将深度学习的各种算法均集合到产品中，在具体实践中可以自由增加、删除、修改、裁剪各种算法模块，快速相应用户需求。2.层级操作。从网络和分布式并行两个方面分别提供算法优化策略。网络层内容包含数据、通信、开销、权重等;分布式并行包含数据、模型、流水线等优化策略。3.虚拟后端。以编程和HPC硬件为基础，包括并行编程MPI、大数据分布式处理框架Spark、GPU编程语言CUDA、RDMA、存储技术等组成。

关键字：生物医学曙光公司