联系站长! 傻子-跸西blog 傻子-跸西微blog
顶部

底部
Feed on
Posts
Comments

看到一篇文章不错,但是博主的博客打不开了所以就备份到这里,避免有一些文章从网上消失
以下内容转载自:www.morphzhou.cn

这是今天在和老师聊项目的讨论到的一个问题,觉得很有意思,就简单拿出来分享一下//只是自己简单的理解…

首先说明一下,百度蜘蛛,是百度搜索引擎的一个自动程序。它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库, 使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。被百度收录的网站都会被这个蜘蛛爬来爬去,好让百度更好的抓取该网站的信息,进而进行搜索排名。 当然提升搜索排名的方式有很多,最常见的就是增加网站的访问量或者关键字被广泛引用,或者土豪一点直接给百度钱加上推广链接,但是这些对于一些小型的企业(这里我们以一些基本没人听说的小医院举例子)来说,无论哪一样都做不到。但是信息时代,没有网络宣传怎么得了,于是最近几年产生了这么一条“灰色”产业链。

举个栗子,当我百度“盘古推送”时
1
会呈现上图所示搜索结果,这是一个十分奇怪的搜索结果,只有前三项是真正和“盘古推送”相关的信息,但居然全是各种医院的信息,并且这几个医院甚至都在同一个二级目录下面。随便选择一个点击进去。
2
界面是这样,看起来并没有问题,但是,当我们单击百度快照的时候,问题出现了
3
界面完全是两个样子,同时我们发现标识出来的原网址的二级目录下的所有文件名,都有随机产生的感觉。至于为什么两个界面不一样呢,我们先分析上一个页面的源代码。
4
从代码中可以看出,原页面是在外部加载了一个frame,相当于这个页面共有两层,而frame的地址是原医院的真实地址(有时该js代码会用eval编码,防止被屏蔽),而百度快照可以理解成为一种百度对网页的缓存,他会自动屏蔽掉外部加载的页面,所以在百度快照里看到的是除去frame加载过来的页面的样子。还有一点,百度快照里的页面是网易新闻的模板,但是链接和文字全被替换掉了,我们关注一下那些链接:
5
发现所有的链接都在三级目录jsk下,并且每个链接点击过去都是相同格局的页面,区别只在于frame嵌套的是其他医院的首页。并且页面名字由随机数构成,让人觉得这所有的页面都是批量生成的一样。那么这么做究竟是为什么呢。

回到我们上面讲到的百度蜘蛛,百度蜘蛛在扫描一个页面的时候会遍历整个页面的文字以及链接,如果页面内的链接是本目录下的链接的话,它会认为这是同一个站点的子页面,就会继续爬入该子页面进行扫描。但实际上它进入的并不是子页面,而是与这个页面除了文字和链接都一模一样的页面,里面的链接同样是本目录下的。设想如果有某种工具每隔一段时间,就在该目录下自动生成数量庞大的页面群,而又彼此链接,那么百度蜘蛛就像迷了路一样的在这个站点不停的爬来爬去,扫描量也会极大的攀升。另一方面,如果在这数量庞大的页面里反复出现了几个相同关键字,也就相当于该关键字被百度重复收录的好多遍,就意味着间接的产生了一系列“热词”,虽然这些热词都是数据刷出来的。

但是这个方法有一个成功的关键。不知道大家有没有建站的经历,网站建立的初期是无法被搜索引擎搜索到的,因为网站的热度不够,百度不会主动收录,需要人为的向百度提交站点信息并且增大访问量,这是一个比较费时间并且需要细心经营的一个过程。因此,前面讲诉的方法不可能在新站点下进行。既然无法自力更生,那么就需要依附于他人,于是二级目录的优势就体现出来了,你只需要找到一个在百度评级中上等(百度评级满分为10分,腾讯9分,新浪8分,百度自身10分…一般5分左右能保证百度蜘蛛光顾就可以)的站点,买下它的一个二级目录(真的可以买到,这算是一个灰色产业),在里面执行上面的方法,效果立杆见影,基本上瞬间就能通过关键字在首页检索到(但是内容不能涉及敏感内容,会被查水表不说,还会葬送主站多年经营的声誉)。有的时候甚至可以能够让蜘蛛爬行以后自动触发生成器,不需人工干预,这样能够有极大的几率留住蜘蛛。原理类似寄生虫泛站,就是在网站配置好寄生虫程序,当人访问或者百度蜘蛛爬行这个页面的时候会繁殖出来更多的页面,而且可以互相轮链传递权重。

很久之前,国内就有不少公司都在做这方面的事,只不过那时的方法随着百度的不断优化已经不起作用了,但是道高一尺魔高一丈,大公司避免不了被人研究,所以总会有新的方法产生。仔细想想,这样的行为究竟该如何评定也是一个问题,它毕竟没有触碰法律,只是基于你的规则用投机取巧的办法达到目的,归根结底还是人与人的博弈。

上次写完博客之后,自己在十一的时候就一直在沿着该思路做相关的事情,直到昨天老师把我叫过去看了一些代码,我发现这是一种不大一样的思路,可能会更有效率。

0x01 预备条件

前一种方式已经介绍到,需要“寄人篱下”,即确保百度蜘蛛会照常访问。而这种方式是通过自己的手段来请蜘蛛入瓮。预备条件之一,数量较多的垃圾域名(一般2,3块钱的那种,泛解析用),用作形成蜘蛛池;预备条件之二,一定量的“肉鸡”(利用中国菜刀等工具,肉鸡不难找),原理类似于原始方法。

oxo2 基本原理

首先需要一个对蜘蛛友好的页面模板mb.html。
6
和一个处理模板的程序,例如index.php,在这个页面里对模板进行了随机装填(从已有的资料库中获取),保证每次返回都出现不同的关键词,并且将页面整个返回出来。
7
同时还需要一个生产外链的程序,例如x.php,称为外链的原因是因为产生的链接都在宿主机(肉鸡)上,因为宿主机上有人为上传的“接应”程序(show.php)。产生的链接都遵循以下形式 :
http://宿主机域名/lock(人为上传的二级目录)/show.php(人为上传的“接应”程序)?lb9b/kFrwlr.html(随机字符串)
8
如图所示,其中news.php和show.php是完全一样的,只不过根据不同情况改了相应的名字,这里用老师的几个服务器做测试。那么这些链接有什么用处呢?应用时,这些链接(外链和内链)都会被index.php随机生成页面时使用,并且之前说过index.php仅仅用来生成页面,那么通过什么将这一系列资源连成网呢?

下面就重点讲一下这个“接应”程序show.php。先贴代码:

"; //host ip
$host_name = "http://".$_SERVER['SERVER_NAME'].$_SERVER['PHP_SELF'];
$Content_mb=getHTTPPage($Remote_server."/index.php?host=".$host_name);

function getHTTPPage($url) {
    $opts = array(
      'http'=>array(
        'method'=>"GET",
        'header'=>"User-Agent: aQ0O010O"
      )
    );
    $context = stream_context_create($opts);
    $html = @file_get_contents($url, false, $context);
    if (empty($html)) {
        exit("

Connection Error!

"); } return $html; } echo $Content_mb; ?>

代码中我们看到一个$Remote_server变量,这个变量直接指向了某个服务器(主服务器)的目录下,并且通过getHTTPPage()函数直接利用Get请求取回了该目录下index.php页面的值。也就是说访问到show.php这个文件时,会出现一个完整的页面,但这个页面并不是自身产生的。
9
(模板不一样是因为指向的服务器下使用的是另一套模板,之前的是本地使用的模板。)同时这个页面里面的链接都是show.php?lb9b/kFrwlr.html(随机字符串) 这样的形式的,但其实根本不存在?后的html页面,因此访问这样的链接都会变成访问show.php,又因为show.php页面是index.php随机产生的,所以每次访问都是不同的内容。这样做的意义究竟何在呢?在上一篇博客里用到的方法是在二级目录下生成足够多的页面来达到此目的,这是因为,这种情况下每个产生的页面最终都是需要给用户查看的,如果无须给用户查看,我们就无须留下如此多的痕迹,仅仅只让蜘蛛“觉得”更新量很大,数据很多就可以了。而且文章开头我说过,预备条件之一是需要一定数量的“肉鸡”,这种类似于黑站的行为是不可能对源目录做出较大的改动的,但我如果只是上传了一个文件,并且该文件本身无恶意操作,基本上是不会被发现的。按照这样的方式,每多一台“肉鸡”,效果就会比原始的方法提升一倍。

但是就目前所讲述的来看,仅仅是蜘蛛来访之后的情况,至于如何把蜘蛛引到我们搭好的“网”上,往往是困难又很麻烦的事情。

0x03 域名泛解析&发送外链

这下子垃圾域名们派上用场了。域名泛解析就是指在域名前添加任何子域名,均可访问到所指向的WEB地址。也就是客户的域名#.com之下所设的*.#.com全部。在这里我们将每个垃圾域名都做这样的批量处理,并且统统解析到主服务器上去,这样搞下去你会发现你的服务器上绑了数量极其庞大的垃圾域名,而这些域名下什么什么东西都没有,只是单单的绕了回来。这些数量庞大的域名就成为了我们这个系统里的“蜘蛛池”。如果大家有建站的经历都应该知道,在建站初期让搜索引擎收录是非常重要的,但是就我用我的博客亲身测试来看,只有Google做到了提交后短时间内收录(这就是大公司的气魄?),而在百度提交了一个月都没被收录。一般这个时候都会去找一些偏方,比如网上许多的在线的向其他网站发送外链的工具,虽然效果不会很明显,但偶尔也会起点作用。而此系统下就是采用类似的方法,因为我们有茫茫多的“分身”,能够让我们整体上提升被收录的概率。批量将我们的域名向各个搜索引擎提交,同时发送外链,其实单单这一步就有很多公司在做……不得不说产业链深不见底Σ( ° △ °|||)︴。假设我们成功引来了蜘蛛,那么蜘蛛就会在我们的主服务器和宿主机上爬来爬去,爬来爬去…

0x04 ******

应该没啥说的了…

3 个评论! to “利用百度蜘蛛刷搜索排名”

  1. YIem说道:

    学习了!

  2. 这样算作弊吧,发现会被惩罚的

  3. 确实,弄不好会被惩罚的,全靠RP!

有什么想法,说两句吧