当前位置:大数据业界动态 → 正文

大数据:谷歌公司针对网络垃圾邮件的头号武器

责任编辑:cres 作者:Rehan Ijaz 译者:HERO |来源:企业网D1Net  2017-09-20 10:05:43 原创文章 企业网D1Net

拉里·佩奇和塞吉·布林于1998年创建了搜索引擎巨头谷歌公司,他们是大数据的先驱,甚至是一件事情。谷歌的算法多年来发生了巨大变化,但大数据一直发挥着关键作用。如今,谷歌公司正在使用大数据来应对日益增长的网络垃圾邮件的威胁。
 
谷歌大数据应用的演变
 
在20世纪末期,大多数搜索引擎通过关键字密度和付费支持来确定其排名。搜索引擎结果的质量很差。Larry Page和Sergey Brin在1998年发明了pagerank算法,为用户提供了更高质量的搜索结果。对于搜索引擎广告优化,有一篇非常精辟的文章阐述了大数据在谷歌搜索算法中的作用。虽然其发布已经有几年的时间,但其结果至今仍然很适用。
 
新的pagerank算法评估了来自其他网站的超级链接,以确定客户排名。新的算法在互联网上抓取可索引页面,这需要当时最先进的大数据工具。
 
新模式是完全依赖于关键字密度的搜索引擎的巨大改进,这有助于谷歌成为世界上最受欢迎的搜索引擎。但是,它创建了一个新的问题- 垃圾链接。
 
被称为“黑帽SEO”的特定群体的垃圾邮件发送者抓住了新的变化。使用以前的搜索引擎,他们提高排名的策略是将他们的网页填充到他们想要定位的关键字。当他们开始尝试在谷歌中排名时,他们将通过互联网从许多不同的网页生成垃圾链接。他们使用基于Hadoop的工具来提取数亿个网站上的数据,并使用它们几乎实时地分配网站排名。
 
谷歌公司网站垃圾邮件小组负责人Matt Cutts已经承诺会找到新的打击垃圾邮件的方法。他表示,谷歌公司会惩罚那些因销售链接而违反其他内容指南的网站。他们还更新了他们的算法,以识别具有很多非自然链接结构的网站。这些网站经常受到惩罚,以阻止垃圾邮件。
 
Cutts概述了他们用来打击垃圾邮件的算法。
 
“谷歌公司对其工程师在收到新的垃圾邮件数据时,能够快速推出应对新的垃圾邮件数据方法表示赞赏,这种方法可以在几分钟内识别创建新的垃圾邮件。这说明谷歌做了什么?想想最近对链接网络的打击。谷歌公司可以快速发现并识别垃圾邮件,至于Penguin的更新,他们可以在全球范围内迅速推出。谷歌公司实施下一个打击垃圾邮件的方法就说明了一切。”
 
大多数大数据系统需要服务器从许多来源中吸收数据。谷歌也不例外。他们从自己的搜索引擎和用户报告中聚合网络垃圾数据。Matt Cutts曾经表示,很多关于网络垃圾邮件的数据来自用户的报告,他们呼吁更多的人提交。
 
“我们有几种方法来使用这些数据。我们当前的算法检测到上面的付费链接很好,但是这些外部报告是一个很好的方法来测量(然后改进)现有的算法在独立数据上的精确度和召回率。接下来,这些报告有助于为未来的算法建立数据集。因此,这些数据有助于我们建立新一代的算法来提高质量。它还允许我们研究新的工具和技术,以改进我们如何检测付费链接。最后,我们可以调查,并对我们收到的许多报告采取直接行动。”Cutts写道。
 
搜索引擎优化(SEO)经销商表示,这正在改变搜索引擎优化的未来。企业必须明白,谷歌的算法游戏会更加困难,这意味着他们必须寻找白帽优化策略。
 
新的大数据解决方案将帮助谷歌消除更多的网络垃圾邮件
 
针对垃圾邮件链接是Matt Cutts及其同事在谷歌公司面临的最大挑战之一。尽管网络垃圾邮件越来越普遍,但近年来他们已经取得了重大进展,因为他们使用了一些世界上最尖端的大数据工具。
 
由于新的基于Hadoop的算法可以帮助他们识别网络垃圾邮件并相应地对网站进行惩罚,因此这种实施过程将更容易。

关键字:大数据

原创文章 企业网D1Net

x 大数据:谷歌公司针对网络垃圾邮件的头号武器 扫一扫
分享本文到朋友圈
当前位置:大数据业界动态 → 正文

大数据:谷歌公司针对网络垃圾邮件的头号武器

责任编辑:cres 作者:Rehan Ijaz 译者:HERO |来源:企业网D1Net  2017-09-20 10:05:43 原创文章 企业网D1Net

拉里·佩奇和塞吉·布林于1998年创建了搜索引擎巨头谷歌公司,他们是大数据的先驱,甚至是一件事情。谷歌的算法多年来发生了巨大变化,但大数据一直发挥着关键作用。如今,谷歌公司正在使用大数据来应对日益增长的网络垃圾邮件的威胁。
 
谷歌大数据应用的演变
 
在20世纪末期,大多数搜索引擎通过关键字密度和付费支持来确定其排名。搜索引擎结果的质量很差。Larry Page和Sergey Brin在1998年发明了pagerank算法,为用户提供了更高质量的搜索结果。对于搜索引擎广告优化,有一篇非常精辟的文章阐述了大数据在谷歌搜索算法中的作用。虽然其发布已经有几年的时间,但其结果至今仍然很适用。
 
新的pagerank算法评估了来自其他网站的超级链接,以确定客户排名。新的算法在互联网上抓取可索引页面,这需要当时最先进的大数据工具。
 
新模式是完全依赖于关键字密度的搜索引擎的巨大改进,这有助于谷歌成为世界上最受欢迎的搜索引擎。但是,它创建了一个新的问题- 垃圾链接。
 
被称为“黑帽SEO”的特定群体的垃圾邮件发送者抓住了新的变化。使用以前的搜索引擎,他们提高排名的策略是将他们的网页填充到他们想要定位的关键字。当他们开始尝试在谷歌中排名时,他们将通过互联网从许多不同的网页生成垃圾链接。他们使用基于Hadoop的工具来提取数亿个网站上的数据,并使用它们几乎实时地分配网站排名。
 
谷歌公司网站垃圾邮件小组负责人Matt Cutts已经承诺会找到新的打击垃圾邮件的方法。他表示,谷歌公司会惩罚那些因销售链接而违反其他内容指南的网站。他们还更新了他们的算法,以识别具有很多非自然链接结构的网站。这些网站经常受到惩罚,以阻止垃圾邮件。
 
Cutts概述了他们用来打击垃圾邮件的算法。
 
“谷歌公司对其工程师在收到新的垃圾邮件数据时,能够快速推出应对新的垃圾邮件数据方法表示赞赏,这种方法可以在几分钟内识别创建新的垃圾邮件。这说明谷歌做了什么?想想最近对链接网络的打击。谷歌公司可以快速发现并识别垃圾邮件,至于Penguin的更新,他们可以在全球范围内迅速推出。谷歌公司实施下一个打击垃圾邮件的方法就说明了一切。”
 
大多数大数据系统需要服务器从许多来源中吸收数据。谷歌也不例外。他们从自己的搜索引擎和用户报告中聚合网络垃圾数据。Matt Cutts曾经表示,很多关于网络垃圾邮件的数据来自用户的报告,他们呼吁更多的人提交。
 
“我们有几种方法来使用这些数据。我们当前的算法检测到上面的付费链接很好,但是这些外部报告是一个很好的方法来测量(然后改进)现有的算法在独立数据上的精确度和召回率。接下来,这些报告有助于为未来的算法建立数据集。因此,这些数据有助于我们建立新一代的算法来提高质量。它还允许我们研究新的工具和技术,以改进我们如何检测付费链接。最后,我们可以调查,并对我们收到的许多报告采取直接行动。”Cutts写道。
 
搜索引擎优化(SEO)经销商表示,这正在改变搜索引擎优化的未来。企业必须明白,谷歌的算法游戏会更加困难,这意味着他们必须寻找白帽优化策略。
 
新的大数据解决方案将帮助谷歌消除更多的网络垃圾邮件
 
针对垃圾邮件链接是Matt Cutts及其同事在谷歌公司面临的最大挑战之一。尽管网络垃圾邮件越来越普遍,但近年来他们已经取得了重大进展,因为他们使用了一些世界上最尖端的大数据工具。
 
由于新的基于Hadoop的算法可以帮助他们识别网络垃圾邮件并相应地对网站进行惩罚,因此这种实施过程将更容易。

关键字:大数据

原创文章 企业网D1Net

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^