使用Azure HDInsight大数据技术来进行分析

责任编辑:editor005

2015-04-03 14:31:42

摘自:中国大数据

在使用大数据(Big Data)的实际应用场景中,记录档是一个很重要的资料来源。在查询控制台可以看到一些解决方案的样例,就包括了对 Azure WebSites 记录档分析的解决方案,见下图:

大数据

在使用大数据(Big Data)的实际应用场景中,记录档是一个很重要的资料来源。相比其他资料来源,记录资讯总在源源不断的产生中,不论是系统或代码中设定好的触发/生成机制,还是系统(例如 Web Server、Database Server等)配置自动生成的记录,甚至包括了系统或应用执行发生异常或错误的情况,例如,SQL Server Azure VM上AlwaysOn高可用(HA)方案的运行状态相关的记录。

而记录档裡所潜藏的价值也正被大数据技术所挖掘,透过对于记录档一些基础资料的统计、挖掘及分析,可以进一步获得很多非常有用的资讯,例如,对网站记录的分析,可以获得页面的点击的情况、外部访问的情况、用户端/服务端错误的情况等,从而进一步分析网页运行的流畅度、使用率分佈、访问者行为等。

在 Azure 中提供了 HDInsight 云端服务来説明大家进行大数据开发工作,可以把相关资料档案存储在 Azure Storage 中,然后利用 HDinsight 节点来对这些资料进行分析。

在 Azure HDInsight 的查询控制台(Query Console)中,最近提供了一些辅助性的解决方案,其中就包括了如何快速、简捷地建立记录档分析的应用。如下图可在 HDInsight 服务页面的底部进入查询控制台:

大数据

在查询控制台可以看到一些解决方案的样例,就包括了对 Azure WebSites 记录档分析的解决方案,见下图:

大数据

在搭建和运行 Azure WebSites 网站时,需要对记录选项进行配置,确保可以根据需要保留网站的运行记录资讯,如下图:

大数据

在查询控制台的记录分析解决方案中,提供了 step-by-step 的执行嚮导,并提供了详细的解释资讯,便于大家瞭解其中相关的技术细节。如下图:

大数据实战

其中,关键步骤包括了基于记录档的资料结构,建立 Hive 的表及分区,如下图,解决方案中列出了具体建立过程的语句:

大数据

解决方案提供了一些常见的分析,并提供了样例程式,可以基于这些代码进行修改,满足自己的需要。

大数据

执行结果可以通过 Excel 来展现,并可以利用大家熟悉的工具,例如 PivotChart,来做进一步分析。

大数据

  此外,还可以通过查询控制台,查看任务的输出及执行的Log。

大数据

原文链接:http://www.thebigdata.cn/JiShuBoKe/13903.html

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号