Yahoo通过三步应对大数据:数据采集、数据存储和数据处理等。
在数据采集方面,Yahoo建立几个数据中心、几十万台机器的实时搜集数据系统是一个主干道负责把数据经过过滤、清理以后进行整合,在高可靠性的情况下,把它放到Hadoop平台。虽然相对来说精度很高、效果很好,但速度会慢一些。为了满足实时性的需求,还有一个旁路系统,旁路系统在秒级能够把数据汇到主干道上,这是数据采集的部分。
在数据存储方面,基本上以HDFS为核心。而在数据处理方面,主要技术是Hadoop、MapReduce以及Yahoo自己开发的Pig。