当前位置:大数据业界动态 → 正文

基于Hadoop的社交网络的分析,Hadoop社交分析

责任编辑:editor005 |来源:企业网D1Net  2015-01-29 13:43:49 本文摘自:帮客之家

昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。

首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。

根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接

http://snap.stanford.edu/data/egonets-Gplus.html(Google+)

http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)

这里面的Google的人数是大概是100000多,相互之间的映射关系(A->B,就是A关注B,或者A是B的好友)有20W+,Twitter的人数大概是80000多,相互之间的映射关系也有20W+。

对下面的图片做一些解释,横坐标代表拥有好友的数量,纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。

我是在本地上实现分布式的,在我的机子上开启了两个虚拟机,和使用了其他两个同学的电脑。

然后我们的性能是用ganglia进行检测的,ganglia的安装以及使用我已在之前的一篇博文中已经说过。

这只是其中一张性能分析的图片,估计本地上配置除了问题,所以才导致,master做了所有的工作。

如果有想要程序的朋友,可以在下面留言,我会写出全部的过程,和代码。

关键字:Hadoop社交网络

本文摘自:帮客之家

x 基于Hadoop的社交网络的分析,Hadoop社交分析 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

基于Hadoop的社交网络的分析,Hadoop社交分析

责任编辑:editor005 |来源:企业网D1Net  2015-01-29 13:43:49 本文摘自:帮客之家

昨天终于hadoop的项目验收完成了,终于可以松一口气了,总体还是比较满意的。

首先说一下项目流程,用mapreduce对数据进行预处理,然后用mahout中的聚类算法(kmeans)对数据进行处理,最后用peoplerank对数据进行处理。

根据老师交给我们的数据,包括Google+和Twitter的部分社交网络数据。以下是两个数据下载的链接

http://snap.stanford.edu/data/egonets-Gplus.html(Google+)

http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)

这里面的Google的人数是大概是100000多,相互之间的映射关系(A->B,就是A关注B,或者A是B的好友)有20W+,Twitter的人数大概是80000多,相互之间的映射关系也有20W+。

对下面的图片做一些解释,横坐标代表拥有好友的数量,纵坐标为拥有该好友数的用户数。这样的分布是符合网络的无标度性。

我是在本地上实现分布式的,在我的机子上开启了两个虚拟机,和使用了其他两个同学的电脑。

然后我们的性能是用ganglia进行检测的,ganglia的安装以及使用我已在之前的一篇博文中已经说过。

这只是其中一张性能分析的图片,估计本地上配置除了问题,所以才导致,master做了所有的工作。

如果有想要程序的朋友,可以在下面留言,我会写出全部的过程,和代码。

关键字:Hadoop社交网络

本文摘自:帮客之家

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^