反spam与spam间的较量
搜索引擎第一轮反击是,在排序时更多地依赖网页正文而不是meta tag。但spam们以进为退,在正文中大量使用与网页背景相同颜色的关键字,在图片注释文字中塞进关键字,在网页代码加入“看不见的注释”。搜索引擎又开始第二轮反击,它们找
到了有效的方法来过滤这些看不见的文字。
搜索引擎的spider(蜘蛛)在访问任何网站时都会自报身份,并且查阅网站的访问规定,按照各网站的规矩来办事。于是,SEO随之制作两个网站,一个专供网友访问,一个专供搜索引擎访问,“各取所需”,这种方法叫做cloaking(外套)。
在国外,其实早在上世纪SEO SPAM便已成大热门。据1998年的一次调查,在主要的搜索引擎上搜索当时的热门词汇“Monica Lewinsky”(莫妮卡·莱温斯基),各搜索引擎首页居然有40%的搜索结果是垃圾网站。
搜索引擎只能去寻找新的相关性排序依据,或作弊者不能控制的排序依据,即到网站以外去寻找排序的依据。于是,出现了超链分析,出现了Pagerank。超链分析的原理即是看网页间的同类链接点作为重要依据,此后,又根据各网站的权重等来综合分析等。这样,gov(政府网站)和edu(教育网站)通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。
但spam们又据此做大量的网站,准备大量的链接,哪个客户出钱,所有的网页都给它一个链接。这种SEO方法被称为link farm。而反spam的做法就是凭发现的link farm而认定此即为作弊网站。
据某论坛上某个站长透露,目前,在中国已经形成了一个巨大SEO SPAM市场,据反spam专家王某的估计,中国以此为生的人数大约在数十万,其网站更是高达数百万计。在互联网上,有众多SEO网站,它们打着各种旗号来“指导”人们作弊,并在上面谈心得体会。
这些SEO SPAM们“赖以生存”的方式主要是以下两种:1.利用搜索引擎引来网站流量带动的广告收入;2.贩卖通过对搜索引擎作弊获得的较高的关键词排名。网站流量以独立IP计算,根据站长的透露,自己每日5000个独立IP的访问量,仅加入了电影宽带等3家的广告联盟,月入已达1300元左右。而一个被百度收录2万左右网页的做流量的网站,每日IP很快就能涨到4万元。
前赴后继的spam
SEO SPAM的破坏性是相当巨大的,它不仅直接破坏了每日数亿计的用户搜索体验———这是搜索引擎网站赖以生存的关键所在,同时也破坏了搜索引擎获得收益的主要来源———竞价排名以及相关广告。
据有关统计资料,在所有网页中,摒除无效网页,作弊网页占到整个网页的10%;在某些热门关键词的搜索中,其前50篇网页,垃圾网站的网页所占比例甚至可以高达80%以上。
在中国,Google一直以谦谦君子的形象示人,但它也有发怒的时候。
2005年3月26日凌晨4点,忍无可忍的Google突然发力,将一大批spam站点清除。Google的页面恢复了以前的干净。
但事隔不到4个月,垃圾网站的网页又如潮水般涌来。据来自Google的内部消息,Google也一直在致力于反spam,但建立一个完整的反垃圾网站系统是一个漫长的过程,在中国,反垃圾网站的人才更是奇货可居。在采访百度时,百度即不愿披露反垃圾网站专家的姓名,“因为这是百度最为宝贵的人才之一”。
据王某透露,其实在搜索引擎与垃圾网站的长期斗争中,搜索引擎总是处于守势。这不仅因为搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几十万网站管理员,更重要的是,制造一个或几十个甚至几百个作弊网页,只要将一个目标网页稍作改动即可实现,并可以不断进行类似复制,而搜索引擎甄别、删除却需要相当的时间,这种“以一当百”,以一个网站对付数以万计作弊网站的工作,对搜索引擎而言,是一个巨大的人力资源投入与成本投入。
目前,垃圾网站的新攻击方向是博客网站。在国内的各大博客,目前均已苦不堪言,spam如蝗虫般涌来,流量太大会导致网站通道堵塞而无法访问。
这一斗争过程,已完全类同于互联网的病毒与反病毒,所不同的是,制造病毒的成本有时会更高些———需要很高的技术门槛,而制造垃圾网站的门槛却相当低,且制作方便。
因此,作为搜索引擎,对待垃圾网站的态度是高度地一致:永久删除。
但在搜索中,永远会有垃圾网站的存在,因为它每时每刻都在诞生。由于垃圾网站的成本与收入间的巨大差异,SEO SPAM们还会勇往直前,前赴后继。而到目前为止,政府以及相关部门还没有对这种互联网上的“假冒伪劣”制定相应的法律制度来制约。但相信这一天一定会到来。(朱建国
暴春燕)
责任编辑 原霞