近几年最火的词,一定是大数据。
Bigdata
没有哪个热词像大数据一样在互联网纵横几个年头。不可否认的是,大数据确实给互联网带来了一定的好处:更高效的决策,更精准的预测,还包括更大胆的想象。
但你在拥抱大数据的时候,却对数据的准确性心存疑虑,或者说是因为不清楚数据的获取来源和方法而怀疑他的准确性。
今天就给大家科普下市面上,常用的获取互联网或移动互联网的数据的渠道和方法,帮你彻底了解大数据。
总体来说,有三种,样本量方法、电信运营商数据、加码技术的方法,各家的具体获取方法并不同。
首先来说下样本量的方法
样本的定义如下:
按照一定的抽样规则从总体中取出的一部分个体,样本中个体的数目称为“样本容量”,样本是总体中有代表性的一部分。
获取方法解释:
基于采集软件和固定样本用户采集网络行为数据,可以完整监测用户整个网络行为数据,包括网页、软件、游戏等软件。国内的,比如“艾瑞咨询”,他的数据获取方法之一就是利用这种方法。
第二种是通过电信运营商的数据来获取的方法
Hitwise是最好的例子,ExperianHitwise是Experian旗下互联网商业智能分析业务。
从1997年来,Hitwise通过与ISP及运营商建立合作,获取用户上网日志数据,所获取数据包含运营商用户通过宽带接入设备、xDSL及小区宽带上网设备以及通过路由WIFI接入的笔记本电脑、iPad及手机设备上网行为,但不包含通过GPRS及3G网络上网设备及APP部分的使用行为。
Hitwise数据采集说明
还有一种就是通过加码技术的方法
比如Googleanalytics,Googleanalytics是著名互联网公司Google为网站提供的数据统计服务。可以对目标网站进行访问数据统计和分析,并提供多种参数供网站拥有者使用。
获取方法解释:
Googleanalytics基于cookie技术以加代码方式实施全网监测,全网监测,不受样本限制,只能监测自身网站用户站内的用户行为数据,不能监测竞争对手用户数据。
当访问者访问带有GoogleAnalyitcs追踪代码的页面时,GoogleAnalyitcs就会发回这样一条数据给Google服务器。GoogleAnalytics也提供包括流量来源、搜索关键词、访客资料、入口页面等。
综合来说
每种方法统计的数据都不是绝对准确的,因为对于某些数据各个统计的算法会有些许不同,我们应该关注的是各个统计的指标走向趋势。每一个工具都有自己的算法,重要的是数据提取出来的信息,更重要的是数据背后的insight!