当前位置:CIO人物访谈 → 正文

混合云大数据分析探索

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2016-04-06 17:06:56 本文摘自:企业网D1Net

大数据的概念,大数据的价值,大数据的解决方案,我们听了很多,似乎也学了很多,我们为此欣喜。毕竟,用IT来为“企业创造价值”是多少CIO们的努力方向。

最后我们发现,原来大数据仍然是“有一种大数据是厂商的大数据解决方案”,仍然是大数据服务商在告诉我们:他们如何帮助我们来做大数据。作为CIO,我们自身的探索在哪里?

郭炜,现易观智库CTO,原万达电商部大数据总经理,这是行业内目前比较罕见的一位90后CIO,当然,由于他自嘲的“人长得比较着急”,无人将他的成就与他的年龄匹配起来。但他的探索一直都在。近日,郭炜将其混合云部署与大数据分析方面的研究与大家进行了分享。

上图为:易观智库CTO郭炜

大数据的三个阶段

郭炜将大数据分为三个阶段:

第一个阶段叫数据仓库或者BI阶段,这个阶段起始于做ERP、CRM时建立的数据仓库,这是大数据的第一个阶段;

第二个阶段是点击流分析阶段,如雅虎的大数据是将点击背后的流量分析出来,通过Hadoop平台,或者其它的新的数据分析技术将点击流分析出来。

第三个阶段是 IoT和O2O时代的大数据,这个阶段的大数据不仅仅是原来在互联网上的数据,还包括线下的一些行为数据,可以用真实的设备,比如智能WIFI,智能蓝牙,用这些智能设备去采集所有线下用户的行为轨迹。比如万达投入过一些智能设备,可以将消费者线下在万达广场里怎么行走的行为轨迹,通过智能设备实时上传到万达大数据平台,通过智能WIFI,智能蓝牙,包括一些摄象头采集消费者的行为,同时结合大家的刷卡行为,便可以将消费者在万达的消费行为明晰记录下来。

也就是当个人逛商场,或者线上消费去京东或者上阿里点击浏览网页一样,消费者在每个商业区域里停留了多长时间,买了什么东西,吃了什么饭,看了什么电影,所有的数据都能采集上。采集这些数据是为了更有效进行推荐引擎,也就是预测,比如上淘宝,他便能预测你可能喜欢何种商品。

举个例子,比如消费者逛完商场,刚出电影院,便收到星巴克优惠券的推送消息,刚刚看完电影,可能觉得你会口渴,此时此刻,这两张优惠券便是你最需要的东西。这个场景的技术实现便使用了SaaS技术。

云和大数据的结合是未来的趋势

易观智库是初创型企业,拥有非常大的数据量,怎么样用一个最高性价比的方式构建大数据平台,并最终实现企业目标?目前易观的大数据资源主要是手机APP,现在已经覆盖5.4亿手机的设备量,监控58万APP。

在这样一个大数据情况下,应该建立一个怎样的数据平台?既能满足业务需要又不需要过大的投入。郭炜说:“云和大数据的结合是未来的趋势。”因为相联接的所有的智能硬件设备都需要通过互联网,此外,目前所有的大数据都是基于开源软件来实现,包括Hadoop等,这些开源平台能节约成本,但其使用也存在很多问题,因此,需要有非常好的云端平台能够直接进行大数据服务。因此,易观智库的大数据平台设计基于上述原则进行。

易观智库的混合云大数据探索

易观将云和大数据的结合分为四层。底层基于AAS和MAS服务,包括公有云服务,一开始就全部实现了基于公有云做的大数据平台。第二层,PaaS、DAAS及相关的大数据服务。第三层是数据分析,让所有数据变得容易理解。第四层是相关的业务营销。

易观将云和大数据结合后,期望将相关的分析、计算变成一个可理解的结果。因此需要把小数据分析做到极致。先让人理解大数据的一个结果,然后再去模拟人的决策,再用新的算法模拟人自己的这些步骤,一次一次反馈改进,形成循环。这其间的路径难点就是先把数据量理解,数据量理解完成后便形成数据规划。

举例如下:比如想看95后喜欢网购的手游的狂人,在工作日晚上十点到十二点最喜欢打开的新闻类的APP是什么?这个场景可用于投放广告的需求,在这个时间有多少客户究竟喜欢看哪些新闻类APP。如果做这个人群的查询,需要有 4000多个标签,5.4亿用户,58万APP,再加上这些人每天的行为,数据量便无法结算。易观现在的做法是,构建云的大数据平台,通过一个MySQL数据库把数据放到MySQL里面,在网上其实就是Redis,Tomcat等,再通过易观自有的秘密机制在公有云上便可以实现相关的查询,以便能满足业务需求。

上述解决方案的优点是快速部署,快速实现,集中化管理,可提供初级攻击防护,硬件免维护。但缺点是执行效率过低,单次30分钟,单价成本较高,年度投入单台超过3万。且目前三个知名的公有云服务商,尽管用了这样或那样的技术,但是I/O系统也是不足,包括网络带宽和CPU性能,目前所有的公有云都是大家共享CPU,因此,总会存在上述问题。

易观曾从不同公有云上面做了三次迁移,最终确定必须先将性能提高。由于易观的业务非常灵活,既想它能够满足业务,同时又能够有大数据计算,混合云架构是最好选择。

其思路是将所有的和大数据相关的技术,包括Hadoop做成一套组件,在此基础上搭建私有云,将自身的Facebook开源大数据平台和MySQL数据库都放在线下,而把所有产品前端的放在公有云上。这样调整的难点是私有云和虚拟机如何分开及怎么跟公有云打通的问题,最后的解决方法是直接通过光纤,便保证了业务的扩展性。

混合云的异地备份的优点就是性能非常强,云端应用配置灵活,机器非常方便。缺点就是公有云和私有云打通后拓扑结构比较复杂。但能够既享受原来物理集群的优化,还能享受灵活。

易观通过上述混合云与大数据的探索,已能成功解决上述95后喜欢网购的手游的狂人,在工作日晚上十点到十二点最喜欢打开的新闻类的APP是什么的难题。

x 混合云大数据分析探索 扫一扫
分享本文到朋友圈
当前位置:CIO人物访谈 → 正文

混合云大数据分析探索

责任编辑:jcao 作者:曹建菊 |来源:企业网D1Net  2016-04-06 17:06:56 本文摘自:企业网D1Net

大数据的概念,大数据的价值,大数据的解决方案,我们听了很多,似乎也学了很多,我们为此欣喜。毕竟,用IT来为“企业创造价值”是多少CIO们的努力方向。

最后我们发现,原来大数据仍然是“有一种大数据是厂商的大数据解决方案”,仍然是大数据服务商在告诉我们:他们如何帮助我们来做大数据。作为CIO,我们自身的探索在哪里?

郭炜,现易观智库CTO,原万达电商部大数据总经理,这是行业内目前比较罕见的一位90后CIO,当然,由于他自嘲的“人长得比较着急”,无人将他的成就与他的年龄匹配起来。但他的探索一直都在。近日,郭炜将其混合云部署与大数据分析方面的研究与大家进行了分享。

上图为:易观智库CTO郭炜

大数据的三个阶段

郭炜将大数据分为三个阶段:

第一个阶段叫数据仓库或者BI阶段,这个阶段起始于做ERP、CRM时建立的数据仓库,这是大数据的第一个阶段;

第二个阶段是点击流分析阶段,如雅虎的大数据是将点击背后的流量分析出来,通过Hadoop平台,或者其它的新的数据分析技术将点击流分析出来。

第三个阶段是 IoT和O2O时代的大数据,这个阶段的大数据不仅仅是原来在互联网上的数据,还包括线下的一些行为数据,可以用真实的设备,比如智能WIFI,智能蓝牙,用这些智能设备去采集所有线下用户的行为轨迹。比如万达投入过一些智能设备,可以将消费者线下在万达广场里怎么行走的行为轨迹,通过智能设备实时上传到万达大数据平台,通过智能WIFI,智能蓝牙,包括一些摄象头采集消费者的行为,同时结合大家的刷卡行为,便可以将消费者在万达的消费行为明晰记录下来。

也就是当个人逛商场,或者线上消费去京东或者上阿里点击浏览网页一样,消费者在每个商业区域里停留了多长时间,买了什么东西,吃了什么饭,看了什么电影,所有的数据都能采集上。采集这些数据是为了更有效进行推荐引擎,也就是预测,比如上淘宝,他便能预测你可能喜欢何种商品。

举个例子,比如消费者逛完商场,刚出电影院,便收到星巴克优惠券的推送消息,刚刚看完电影,可能觉得你会口渴,此时此刻,这两张优惠券便是你最需要的东西。这个场景的技术实现便使用了SaaS技术。

云和大数据的结合是未来的趋势

易观智库是初创型企业,拥有非常大的数据量,怎么样用一个最高性价比的方式构建大数据平台,并最终实现企业目标?目前易观的大数据资源主要是手机APP,现在已经覆盖5.4亿手机的设备量,监控58万APP。

在这样一个大数据情况下,应该建立一个怎样的数据平台?既能满足业务需要又不需要过大的投入。郭炜说:“云和大数据的结合是未来的趋势。”因为相联接的所有的智能硬件设备都需要通过互联网,此外,目前所有的大数据都是基于开源软件来实现,包括Hadoop等,这些开源平台能节约成本,但其使用也存在很多问题,因此,需要有非常好的云端平台能够直接进行大数据服务。因此,易观智库的大数据平台设计基于上述原则进行。

易观智库的混合云大数据探索

易观将云和大数据的结合分为四层。底层基于AAS和MAS服务,包括公有云服务,一开始就全部实现了基于公有云做的大数据平台。第二层,PaaS、DAAS及相关的大数据服务。第三层是数据分析,让所有数据变得容易理解。第四层是相关的业务营销。

易观将云和大数据结合后,期望将相关的分析、计算变成一个可理解的结果。因此需要把小数据分析做到极致。先让人理解大数据的一个结果,然后再去模拟人的决策,再用新的算法模拟人自己的这些步骤,一次一次反馈改进,形成循环。这其间的路径难点就是先把数据量理解,数据量理解完成后便形成数据规划。

举例如下:比如想看95后喜欢网购的手游的狂人,在工作日晚上十点到十二点最喜欢打开的新闻类的APP是什么?这个场景可用于投放广告的需求,在这个时间有多少客户究竟喜欢看哪些新闻类APP。如果做这个人群的查询,需要有 4000多个标签,5.4亿用户,58万APP,再加上这些人每天的行为,数据量便无法结算。易观现在的做法是,构建云的大数据平台,通过一个MySQL数据库把数据放到MySQL里面,在网上其实就是Redis,Tomcat等,再通过易观自有的秘密机制在公有云上便可以实现相关的查询,以便能满足业务需求。

上述解决方案的优点是快速部署,快速实现,集中化管理,可提供初级攻击防护,硬件免维护。但缺点是执行效率过低,单次30分钟,单价成本较高,年度投入单台超过3万。且目前三个知名的公有云服务商,尽管用了这样或那样的技术,但是I/O系统也是不足,包括网络带宽和CPU性能,目前所有的公有云都是大家共享CPU,因此,总会存在上述问题。

易观曾从不同公有云上面做了三次迁移,最终确定必须先将性能提高。由于易观的业务非常灵活,既想它能够满足业务,同时又能够有大数据计算,混合云架构是最好选择。

其思路是将所有的和大数据相关的技术,包括Hadoop做成一套组件,在此基础上搭建私有云,将自身的Facebook开源大数据平台和MySQL数据库都放在线下,而把所有产品前端的放在公有云上。这样调整的难点是私有云和虚拟机如何分开及怎么跟公有云打通的问题,最后的解决方法是直接通过光纤,便保证了业务的扩展性。

混合云的异地备份的优点就是性能非常强,云端应用配置灵活,机器非常方便。缺点就是公有云和私有云打通后拓扑结构比较复杂。但能够既享受原来物理集群的优化,还能享受灵活。

易观通过上述混合云与大数据的探索,已能成功解决上述95后喜欢网购的手游的狂人,在工作日晚上十点到十二点最喜欢打开的新闻类的APP是什么的难题。

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^