4月25日-26日,企业网D1Net《2017CCS云计算渠道合作高峰论坛》在京举行,易观国际CTO郭炜以《Pb 级大数据集群云化与迁移》为主题,分享了其大数据迁移过程中遇到的问题及采用的解决方案。
提升云迁移中数据互传效率
云迁移通过互联网互传的时候,小包传没有效率,易观使用自建的“四分卫”的开源项目有效提高了云迁移的高效数据互传问题。易观开源的“四分卫”类似橄榄球的传球手,运用压缩算法和排序将每个小包压缩成一个档案,通过互联网传到两个接收端,解包后按照排序再进入到Kafka里面,通过排序、互传同步的机制,保证不丢包。假如发生丢包,也可以续传,然后再放进Kafka。
解决漏斗查询难题
对于很多企业来说,从浏览网页到产品下单到支付的转化率和流失率,对业务发展至关重要。业内将这种场景称为“漏斗查询”,在郭炜看来,漏斗查询的难点在于,需要对一个有序行为序列转化漏斗。目前市场上大部分的开源引擎都是针对无序OLAP查询,有序的查询相对较难。对此,易观针对该场景给出了解决方案,目前针对百万日活的APP漏斗查询都在30秒以内,近期也会开源给大家。
(大数据迁移总结)
郭炜总结说,大数据云迁移,包括几个方面:基础框架建设、历史数据迁移、并行数据验证、产品切换以及业务上面的数据治理几个部分。攻克文中的几个难题,易观国际PB级历史数据得到了无缝切换。目前易观混合云大数据平台有着4.42亿月活量,3000多万日活,累计装机量18.2亿,在互联网行业大数据中也处于第一梯队。