近日,从国外数据库初创公司Citus Data方面了解,实现了Hadoop数据上的快速SQL查询,同时超越Postgres将其高速、分析数据库CitusDB扩展到Hadoop上,未来将扩展到MongoDB及其它数据库产品,特别是关系型数据库、Hadoop、MongoDB、Amazon S3等产品平台。
Citus Hadoop架构(来源gigaom.com)
如今,可以说大数据打开企业数据分析以及选择性数据存储的应用领域。有效地将两项结合需要学习新的语言,使用多工具处理,甚至在分析平台上或许要牺牲一部分性能。
据了解,CitusDB是Citus Data公司的旗舰数据库产品,建立在PostgreSQL之上,目的就是为关系型数据设计像谷歌Dremel规模和性能的数据库。特别是名为 “foreign data wrappers”功能,它能够在多种数据类型(像CSV, log以及JSON files)上运行SQL。
另外特点就是,CitusDB不仅具有良好的灵活性而且性能很快。相比较甲骨文Exadata machine上TPC-H基准测试中数据直接存储在硬盘有明显优势,而之前在亚马逊EC2云上的Postgres-Hadoop查询几秒钟内实现。
以Hadoop举例,MapReduce提供数据集的计算,但是每一个Job需要对整个数据集进行扫描,导致Hadoop上的SQL查询工具Hive性能慢的原因。CitusDB比Hive查询数据类型的速度快3~20倍。
但是CitusDB市场上竞争对手是SQL-On-Hadoop的项目,相比Aster Data,Platfora,Cloudera (Impala)等公司在Hadoop上的产品,CitusDB除了查询多个数据源之外,Citus绝非一个查询执行引擎产品,而是具有企业级数据库的特点。