当前位置:存储技术专区 → 正文

大数据的小世界

责任编辑:vivian |来源:企业网D1Net  2012-02-03 15:20:40 原创文章 企业网D1Net

《企业网D1Net》2月3日讯当我们在谈论大数据和数据仓库时,Hadoop几乎是不可避免会被提到的。

但是就像大多数大数据技术一样,Hadoop不是凭空出现的,它和这一领域的其他技术有着密切的关系。Hadoop采用map/reduce技术形成一个数据框架,在上面数据被存储并且由应用程序运行数据。它的起源可以追溯到另一种数据仓库技术:企业搜索。

企业搜索,也称为实时搜索,是一种数据存储的方法,采用了搜索的概念,适用于大量的非结构化或半结构化的数据集合,比如文档。

最完美的文件存储系统会利用某种XML或基于SGML的标记语言来保持这些文件的内容良好和有组织性。但在现实中,文件离这种理想状态有很大距离。这时候,“企业搜索”进场。

企业搜索产品——例如,Apache Lucene、ElasticSearch和Apache Solr——使用了一个被称为“facets”的概念,让你在关系数据库中可以处理文件数据。Facets基本上是倒排索引,让你在文档中找到特定的信息,比如地址或其他客户信息。

如果你有一大堆这种类型的文档需要筛选,并且需要做一些简单的数据挖掘或商业智能分析,那企业搜索是理想的。越是结构化的数据效果越好。企业搜索特别适用于处理诸如网络博客这样的文档,因为它们的结构足够统一可以实现更深层次的数据挖掘。

企业搜索和目前大肆宣传的Hadoop之间的联系在于这两种技术的创造者:道·卡廷(Doug Cutting)。卡廷目前是Hadoop 厂商Cloudera的架构设计师,在1998年把Lucene作为Java搜索引擎库。

但生活(互联网热潮)让卡廷从他的Java项目中抽身。在2000年左右,卡廷选择采用这种完美的搜索引擎库,并在SourceForge上以GPL许可开放源码。在遭受到潜在用户的强烈抗议后,卡廷之后把许可转到限制较少的LGPL协议。

当这个项目在2001年被邀请加入Apache软件基金会(ASF)时,卡廷被敦促接受这个邀请,然后Lucene就成为ASF的项目,在Apache软件许可下授权。

卡廷在Lucene上继续努力,将该技术发展成开源Nutch的搜索引擎,这是一个完整的应用程序,而不是一个类似Lucene的平台。Nutch也面向网络搜索,有很多和企业搜索一样的功能,如网页抓取、文件格式、语言检测以及句法分析。

但是,Nutch的强大也注定了它没有足够的可扩展性来搜索企业级数据集。多节点安装,甚至低至4个节点,都被证明是难以管理。Nutch对任何超过100万页的空间分配和资源管理都被证明有限制。

因此,在2008年Hadoop诞生了。Hadoop采用分布式计算技术,是Nutch可以运行的新框架。Hadoop分布式文件系统,再加上MapReduce(这两者在谷歌项目中被仿照),成为Nutch赖以运行的框架。

卡廷的Lucene不仅促进了基于MapReduce的Hadoop技术的建立,也成为其他企业搜索技术的基础。尤其ElasticSearch和Apache Solr都是企业基于Web的搜索工具,它们都利用Lucene Java库。

在企业搜索领域,这两个工具哪个更好一直有很多争论。Solr据说是速度非常快,但ElasticSearch的分布式能力意味着可以跨多个分布式资源来共享工作,从而提供相似的性能。

这项技术的演进是有趣的,但不只是从一个纯粹的圈内人立场。了解这些技术如何结合在一起,将帮助用户了解哪种解决方案更适合他们。(Vivian 编译)

关键字:存储大数据

原创文章 企业网D1Net

x 大数据的小世界 扫一扫
分享本文到朋友圈
当前位置:存储技术专区 → 正文

大数据的小世界

责任编辑:vivian |来源:企业网D1Net  2012-02-03 15:20:40 原创文章 企业网D1Net

《企业网D1Net》2月3日讯当我们在谈论大数据和数据仓库时,Hadoop几乎是不可避免会被提到的。

但是就像大多数大数据技术一样,Hadoop不是凭空出现的,它和这一领域的其他技术有着密切的关系。Hadoop采用map/reduce技术形成一个数据框架,在上面数据被存储并且由应用程序运行数据。它的起源可以追溯到另一种数据仓库技术:企业搜索。

企业搜索,也称为实时搜索,是一种数据存储的方法,采用了搜索的概念,适用于大量的非结构化或半结构化的数据集合,比如文档。

最完美的文件存储系统会利用某种XML或基于SGML的标记语言来保持这些文件的内容良好和有组织性。但在现实中,文件离这种理想状态有很大距离。这时候,“企业搜索”进场。

企业搜索产品——例如,Apache Lucene、ElasticSearch和Apache Solr——使用了一个被称为“facets”的概念,让你在关系数据库中可以处理文件数据。Facets基本上是倒排索引,让你在文档中找到特定的信息,比如地址或其他客户信息。

如果你有一大堆这种类型的文档需要筛选,并且需要做一些简单的数据挖掘或商业智能分析,那企业搜索是理想的。越是结构化的数据效果越好。企业搜索特别适用于处理诸如网络博客这样的文档,因为它们的结构足够统一可以实现更深层次的数据挖掘。

企业搜索和目前大肆宣传的Hadoop之间的联系在于这两种技术的创造者:道·卡廷(Doug Cutting)。卡廷目前是Hadoop 厂商Cloudera的架构设计师,在1998年把Lucene作为Java搜索引擎库。

但生活(互联网热潮)让卡廷从他的Java项目中抽身。在2000年左右,卡廷选择采用这种完美的搜索引擎库,并在SourceForge上以GPL许可开放源码。在遭受到潜在用户的强烈抗议后,卡廷之后把许可转到限制较少的LGPL协议。

当这个项目在2001年被邀请加入Apache软件基金会(ASF)时,卡廷被敦促接受这个邀请,然后Lucene就成为ASF的项目,在Apache软件许可下授权。

卡廷在Lucene上继续努力,将该技术发展成开源Nutch的搜索引擎,这是一个完整的应用程序,而不是一个类似Lucene的平台。Nutch也面向网络搜索,有很多和企业搜索一样的功能,如网页抓取、文件格式、语言检测以及句法分析。

但是,Nutch的强大也注定了它没有足够的可扩展性来搜索企业级数据集。多节点安装,甚至低至4个节点,都被证明是难以管理。Nutch对任何超过100万页的空间分配和资源管理都被证明有限制。

因此,在2008年Hadoop诞生了。Hadoop采用分布式计算技术,是Nutch可以运行的新框架。Hadoop分布式文件系统,再加上MapReduce(这两者在谷歌项目中被仿照),成为Nutch赖以运行的框架。

卡廷的Lucene不仅促进了基于MapReduce的Hadoop技术的建立,也成为其他企业搜索技术的基础。尤其ElasticSearch和Apache Solr都是企业基于Web的搜索工具,它们都利用Lucene Java库。

在企业搜索领域,这两个工具哪个更好一直有很多争论。Solr据说是速度非常快,但ElasticSearch的分布式能力意味着可以跨多个分布式资源来共享工作,从而提供相似的性能。

这项技术的演进是有趣的,但不只是从一个纯粹的圈内人立场。了解这些技术如何结合在一起,将帮助用户了解哪种解决方案更适合他们。(Vivian 编译)

关键字:存储大数据

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^