大数据的小世界

责任编辑：vivian |来源：企业网D1Net 2012-02-03 15:20:40 原创文章企业网D1Net

《企业网D1Net》2月3日讯当我们在谈论大数据和数据仓库时，Hadoop几乎是不可避免会被提到的。

但是就像大多数大数据技术一样，Hadoop不是凭空出现的，它和这一领域的其他技术有着密切的关系。Hadoop采用map/reduce技术形成一个数据框架，在上面数据被存储并且由应用程序运行数据。它的起源可以追溯到另一种数据仓库技术：企业搜索。

企业搜索，也称为实时搜索，是一种数据存储的方法，采用了搜索的概念，适用于大量的非结构化或半结构化的数据集合，比如文档。

最完美的文件存储系统会利用某种XML或基于SGML的标记语言来保持这些文件的内容良好和有组织性。但在现实中，文件离这种理想状态有很大距离。这时候，“企业搜索”进场。

企业搜索产品——例如，Apache Lucene、ElasticSearch和Apache Solr——使用了一个被称为“facets”的概念，让你在关系数据库中可以处理文件数据。Facets基本上是倒排索引，让你在文档中找到特定的信息，比如地址或其他客户信息。

如果你有一大堆这种类型的文档需要筛选，并且需要做一些简单的数据挖掘或商业智能分析，那企业搜索是理想的。越是结构化的数据效果越好。企业搜索特别适用于处理诸如网络博客这样的文档，因为它们的结构足够统一可以实现更深层次的数据挖掘。

企业搜索和目前大肆宣传的Hadoop之间的联系在于这两种技术的创造者：道·卡廷(Doug Cutting)。卡廷目前是Hadoop 厂商Cloudera的架构设计师，在1998年把Lucene作为Java搜索引擎库。

但生活（互联网热潮）让卡廷从他的Java项目中抽身。在2000年左右，卡廷选择采用这种完美的搜索引擎库，并在SourceForge上以GPL许可开放源码。在遭受到潜在用户的强烈抗议后，卡廷之后把许可转到限制较少的LGPL协议。

当这个项目在2001年被邀请加入Apache软件基金会（ASF）时，卡廷被敦促接受这个邀请，然后Lucene就成为ASF的项目，在Apache软件许可下授权。

卡廷在Lucene上继续努力，将该技术发展成开源Nutch的搜索引擎，这是一个完整的应用程序，而不是一个类似Lucene的平台。Nutch也面向网络搜索，有很多和企业搜索一样的功能，如网页抓取、文件格式、语言检测以及句法分析。

但是，Nutch的强大也注定了它没有足够的可扩展性来搜索企业级数据集。多节点安装，甚至低至4个节点，都被证明是难以管理。Nutch对任何超过100万页的空间分配和资源管理都被证明有限制。

因此，在2008年Hadoop诞生了。Hadoop采用分布式计算技术，是Nutch可以运行的新框架。Hadoop分布式文件系统，再加上MapReduce（这两者在谷歌项目中被仿照），成为Nutch赖以运行的框架。

卡廷的Lucene不仅促进了基于MapReduce的Hadoop技术的建立，也成为其他企业搜索技术的基础。尤其ElasticSearch和Apache Solr都是企业基于Web的搜索工具，它们都利用Lucene Java库。

在企业搜索领域，这两个工具哪个更好一直有很多争论。Solr据说是速度非常快，但ElasticSearch的分布式能力意味着可以跨多个分布式资源来共享工作，从而提供相似的性能。

这项技术的演进是有趣的，但不只是从一个纯粹的圈内人立场。了解这些技术如何结合在一起，将帮助用户了解哪种解决方案更适合他们。(Vivian 编译）

热文

高端访谈更多

热点专题更多

电子周刊

大数据的小世界

责任编辑：vivian | 2012-02-03 15:20:40 原创文章企业网D1Net

《企业网D1Net》2月3日讯当我们在谈论大数据和数据仓库时，Hadoop几乎是不可避免会被提到的。

企业搜索，也称为实时搜索，是一种数据存储的方法，采用了搜索的概念，适用于大量的非结构化或半结构化的数据集合，比如文档。

当这个项目在2001年被邀请加入Apache软件基金会（ASF）时，卡廷被敦促接受这个邀请，然后Lucene就成为ASF的项目，在Apache软件许可下授权。