数据不沉海 爬虫程式赋予数据新生命

责任编辑:editor005

2015-04-08 13:24:19

摘自:中国大数据

为进行搜集数据,首先必须先因应不同的网站而写出不同的爬文程式,而任何的程式语言都可以作为爬文程式撰写的工具。社群媒体数据分析研究团队的研究特色在于透过发展数据分析核心技术,减少人力的负担。

在「云端」科技之后,近年「大数据(Big Data)」发展成一个震天价响的口号,各行各业对于投入大数据应用的研究开发是跃跃欲试,不愿意放弃任何一条可能开挖到金矿的山路,即便只是一条溪径,各产业也愿意卷起衣裤放手一搏,只为了发现有黄金比喻的数据数据。

  数据的搜集是利用在网络上爬行并截取所需要的数据,这是条漫漫长路。过去的数据结构较简易、呈现的方式大致上以HTML或是Server-side Scripts为主,因此过去在进行数据搜集作业时,是较为容易的;现今多利用Flash、AJAX等工具进行网站的建置,数据的结构也愈趋复杂,相对的也提升了搜集数据的困难度。

大数据

  为进行搜集数据,首先必须先因应不同的网站而写出不同的爬文程式,而任何的程式语言都可以作为爬文程式撰写的工具。元智大学大数据中心的社群媒体数据分析研究团队í表示,善用程式语言或是Open Source的函式库(Library)可以提升程式撰写的效率。然而,在进行程式语言的挑选时,爬行难易度以及爬行结果剖析准确度就为工具选择的首要考量因素;再者,即考量程式语言的函式库、套件(Package)等的多元性;最后,个人的喜好当然也是工具选择的重要考量之一。

  社群媒体数据分析研究团队表示,目前团队使用的工具之一是Python,而选择Python的塬因是因为Python提供较为便利的程式撰写环境,并且提供专门针对支援爬虫程式的套件;以上,相对于其它的程式语言而言,Python最大的优点即是实用性高、弹性大,面对不同的网站可以迅速的进行反应。一体两面地,有优点固然有其缺点,Python在处理速度方面,相对于JAVA而言,是略逊一筹的;但该团队表示,以当前的研究分析目的而言,这并不影响团队在进行数据搜集、处理的速度。现在,我们生活于一个资讯大爆炸的时代,搜寻引擎龙头Google或其他营利或非营利团体皆会使用爬虫程式进行网站数据的搜集;而社群媒体分析研究团队表示,在使用爬虫程式进行爬虫时,必须要特别注意的即是「礼貌」,使用者必须注意爬行频率是否适当,如果爬行频率过高,除了可能造成网站的困扰,爬虫程式亦可能遭到网站封锁。因此,爬行频率也可谓为该领域的网络礼仪。

大数据

图2:促销活动讨论度分析。

大数据

图3:品牌关键字强度分析。


  现在许多使用者在购买产品前会先从网络上搜集数据、藉由网民在各评论网站或社群网站上所分享的资讯或评价来决定购买意愿;现下社群网站当道,无一企业不重视网络社群口碑的影响力,并着手展开创新的商业模式;然而,为更精确的掌握客户的想法和需求,企业藉由海量数据进行大数据分析,无形的口碑也神奇的被量化了。目前社群媒体分析研究团队是与国内某知名汽车厂商合作,主要已经完成Mobile01、Facebook以及PPT等网站的爬虫程式,再利用潜藏语意分析(latent semantic analysis)与独立成份分析(independent component analysis)的自动侦测技术,为繁杂的评论进行情感标签。

  就此合作案例而言,该团队藉由数据的搜集、探勘并进行大数据分析以得出品牌的强、弱、危、机;而汽车厂商亦藉由该团队所提出的分析和消费者产生了连结、互动,也因此更了解社群世界对各汽车品牌的观感,并运用分析结果制订出更有效的策略方案,在这波新兴的社群经济下,势必会为企业以及消费者缔造出双赢的未来。

  社群媒体数据分析研究团队的研究特色在于透过发展数据分析核心技术,减少人力的负担。主要成果í如下:

  避免传统文件情感分类需要人工准备大量训练数据的人力耗损。

  提出使用Semi-supervised learning的DA-SC技术来完成,仅需准备少量(14个) domain-independent opinion lexicons,便可达到与传统做法的分类效能 (请参阅图5)。

大数据

  图5:A domain-adapted sentiment classification approach。

  自动找出「情感标签」的技术

  传统单独使用Latent Semantic Analysis仅能找出latent features,单独使用Independent Component Analysis仅能找出independent features。本研究发展出结合两者的作法(请参阅图6),不但能找出latent features,也能降低feature overlap。此外,本研究也发展出透过visualization选取features的工具(请参阅图7)。

大数据



  图6:A hybrid approach of LSA and ICA sentiment classification approach。

大数据

  图7:Visualized Feature Selection Tool。

  新的Social Network Analysis metric来侦测网拍诈欺用户

  传统用于侦测网拍诈欺用户的Social Network Analysis metric如k-core与center weight常无法同时达到好的precision 与recall。本研究透过分析与诈欺用户交易之用户的特性,提出neighbor diversity来改善precision 与recall。

  综观而言,大数据和社群是密不可分,目前行动上网的普及率以及社群网站的热门程度是以正向趋势在延烧着;同时,拜社群网站所赐,民众也愈能快速、便利的将自己的意见表达在网络上,无形的丰富了「数据」。

大数据

  图8:社群媒体倾向分析。

  「Big Data」也就因应而生。社群媒体分析研究团队表示,Google Trends利用分析「网站流量」、「关键字」对使用者的「搜寻」来预测人类未来的活动趋势,而Google Flu Trends就是一个非常知名的应用,从搜寻的关键字去预测流感的发生,简而言之,当大家都开始讨论同一件事情时,就表示着有一件事即将爆发。而就应用面来看,从数据撷取时就必须网罗组织内、外部数据;所谓的组织内数据是以有意的形式去进行搜集并控管;而组织外数据即是我们俗称的社群数据。该团队表示,若仅以由公司内部所搜集到的数据进行分析,其周延性及准确性是有所欠缺的;就现今普罗大众而言,大多数使用者皆是以社群网站作为发表言论、想法的主要管道,然而,这些社群数据主要即是用来突破过去的局限,让企业更能全面性掌握消费者的心声以利提供后续更优质的服务以及准确地提升产品品质。

原文链接:http://www.thebigdata.cn/JieJueFangAn/13939.html

链接已复制,快去分享吧

企业网版权所有©2010-2025 京ICP备09108050号-6京公网安备 11010502049343号