据蓝盾大数据中心介绍,2012年和2013年互联网所产生的数据,相当于人类从有史以来一直到2011年所产生的数据量总和。互联网产生大数据,移动互联网和物联网进一步推动数据的暴涨。研究机构预测,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。海量数据中蕴藏着大量有价值的信息,为了充分利用这些信息,目前流行的做法是利用Hadoop构建大数据项目。Hadoop确实让数据处理和分析变得更廉价更高效,但由于最初Hadoop并不是作为一个企业级工具出现,仅是一个建立在MapReduce基础上的软件库,而且开源,因此Hadoop的安全措施并不如想象的可靠。
Hadoop安全不容忽视
在当今的IT圈内几乎所有企业都在谈论大数据,但除了少数互联网巨头之外,国内很多Hadoop使用者的关注点仍然停留在比较基础的阶段,最常见的是用Hadoop来做日志事件处理,而Hadoop自身的安全问题尚未受到普遍重视,导致Hadoop的安全策略管理、访问控制、合规性设计以及授权认证方面的不足相当明显。虽然用户可以通过部署Hadoop支持的网络验证协议Kerberos来保护信息的安全性,但Kerberos的配置较为复杂,因此这种方案并没有被广泛采用。另外,Hadoop有很多Web接口,所有应用都可能出现能被黑客利用的缺陷和漏洞。在数据安全方面,Hadoop数据并没有经过加密,因此也很容易被窃取或被泄露。Hadoop数据完整性无法得到保证,企业一旦用了被篡改的数据就会得到错误的数据分析结果,从而导致产生错误的业务决策。
蓝盾Hadoop 安全探索
蓝盾从2012年开始研究基于Hadoop计算系统构建智能安全防护系统。蓝盾的NxSOC为改变此前的序列化数据处理方式而引入Hadoop计算系统,把接收到的安全事件进行全网大数据关联分析,建立多种攻击关联场景,有效地从大量安全事件中准确识别出真实的入侵行为。正是由于蓝盾较早引入Hadoop系统,并在使用过程中发现了一些安全隐患,由此开始进行相关安全研究,提出蓝盾Hadoop安全框架。
图. 蓝盾Hadoop安全框架
蓝盾的云安全专家认为,由于大数据与云计算关系密切,云计算的风险基本上被大数据继承而成为大数据的安全风险。Hadoop的安全框架也在一定程度上沿袭了云安全的模型,采用分层式设计:最外层通过强访问控制,确保Hadoop数据的访问权限不被滥用;第二层是网络边界防御,蓝盾的高性能UTM不仅提供了IDS/IPS的功能,还基于高性能计算避免了成为大数据的处理性能瓶颈。此外,蓝盾智能网关防御系统还会基于VLAN分离普通用户流量和大数据安全流量,确保仅可信流量流经加密网络通道,从而提高整套系统通信能力;第三层是针对应用层的安全防护,蓝盾的云安全运营中心提供专业的应用漏洞扫描以及Web安全防护以保证整个平台的应用安全;最内层是数据安全保护,其分为数据可用性和数据私密性两个方面的保护。蓝盾数据备份中心为大数据中心部署备份服务以保障数据可用性,备份中心会根据服务器类别提供实时备份或定时备份保护。此外,这些备份还需要加密,绝大多数情况下安全数据站点发生数据泄露事故都是因为备份媒介的丢失或者被盗。蓝盾利用加密技术在文件层增加透明的数据加密,只有授权或解密的情况下才能打开和访问数据,在数据在节点和应用程序之间的移动中保护大数据。
蓝盾在2013年初提出了“智慧安全”的理念,随即推出新一代安全产品框架“动立方”,推动公司战略转型和产品升级,面向云计算、大数据及移动互联网等第三代网络环境与新技术应用,为客户提供安全产品、安全服务、安全集成、安全运营全方位综合性的网络安全解决方案。